English(EN) Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning

研究人员开发Glance-or-Gaze，通过自适应聚焦提升大型多模态模型的视觉搜索能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员推出Glance-or-Gaze (GoG)，一个旨在改进大型多模态模型（LMM）处理知识密集型视觉查询的新框架。与之前不加区分地检索信息的旧方法不同，GoG采用选择性注视机制，自适应地聚焦于相关的图像区域或全局上下文。该框架采用双阶段方法进行训练，结合了监督微调和复杂度自适应强化学习，以增强迭代推理能力和在复杂视觉任务上的表现。 AI

影响为大型多模态模型引入了一种新颖的自适应搜索机制，有望提高在复杂视觉查询任务中的效率和准确性。

排序理由这是一篇详细介绍大型多模态模型新框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Hongbo Bai, Yujin Zhou, Yile Wu, Chi-Min Chan, Pengcheng Wen, Kunhao Pan, Sirui Han, Yike Guo · 2026-04-30 04:00

Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning

arXiv:2601.13942v2 Announce Type: replace Abstract: Large Multimodal Models (LMMs) have achieved remarkable success in visual understanding, yet they struggle with knowledge-intensive queries involving long-tail entities or evolving information due to static parametric knowledge.…

报道来源 [1]

Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning

相关实体

相关话题