新训练方法对抗视觉语言模型中的“懒惰感知”

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-18 16:13

研究人员引入了一种名为“Starve to Perceive”的新训练范式，以解决视觉语言模型（VLMs）中的“懒惰感知”问题。当VLMs能够利用粗略的视觉输入和语言先验获得足够准确率时，就会出现这种现象，导致它们缺乏学习主动视觉搜索策略（如缩放或裁剪）的真正动力。“Starve to Perceive”方法通过限制每个观测值的令牌预算来约束视觉带宽，迫使模型通过主动感知来完成任务。这种对现有训练流程的最小化、即插即用式修改，在无需架构更改或辅助损失的情况下，在各种基准测试中实现了平均5%的相对改进。 AI

影响这项研究引入了一种提高VLMs主动感知能力的方法，有望在复杂的视觉环境中产生更有效的智能体。

排序理由该集群包含一篇详细介绍现有模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Haozhe Wang · 2026-05-18 16:13

饿以致知：通过约束视觉带宽驯服视觉语言模型中的懒惰感知

Vision-Language Models (VLMs) deployed as situated agents in high-resolution visual environments require active perception -- the ability to dynamically decide where to look through operations like zooming, cropping, and panning. However, current training paradigms produce models…

报道来源 [1]

饿以致知：通过约束视觉带宽驯服视觉语言模型中的懒惰感知

相关实体

相关话题