研究人员引入了一种名为“Starve to Perceive”的新训练范式,以解决视觉语言模型(VLMs)中的“懒惰感知”问题。当VLMs能够利用粗略的视觉输入和语言先验获得足够准确率时,就会出现这种现象,导致它们缺乏学习主动视觉搜索策略(如缩放或裁剪)的真正动力。“Starve to Perceive”方法通过限制每个观测值的令牌预算来约束视觉带宽,迫使模型通过主动感知来完成任务。这种对现有训练流程的最小化、即插即用式修改,在无需架构更改或辅助损失的情况下,在各种基准测试中实现了平均5%的相对改进。 AI
影响 这项研究引入了一种提高VLMs主动感知能力的方法,有望在复杂的视觉环境中产生更有效的智能体。
排序理由 该集群包含一篇详细介绍现有模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →