PulseAugur
实时 00:12:20

新训练方法对抗视觉语言模型中的“懒惰感知”

研究人员引入了一种名为“Starve to Perceive”的新训练范式,以解决视觉语言模型(VLMs)中的“懒惰感知”问题。当VLMs能够利用粗略的视觉输入和语言先验获得足够准确率时,就会出现这种现象,导致它们缺乏学习主动视觉搜索策略(如缩放或裁剪)的真正动力。“Starve to Perceive”方法通过限制每个观测值的令牌预算来约束视觉带宽,迫使模型通过主动感知来完成任务。这种对现有训练流程的最小化、即插即用式修改,在无需架构更改或辅助损失的情况下,在各种基准测试中实现了平均5%的相对改进。 AI

影响 这项研究引入了一种提高VLMs主动感知能力的方法,有望在复杂的视觉环境中产生更有效的智能体。

排序理由 该集群包含一篇详细介绍现有模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新训练方法对抗视觉语言模型中的“懒惰感知”

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Haozhe Wang ·

    饿以致知:通过约束视觉带宽驯服视觉语言模型中的懒惰感知

    Vision-Language Models (VLMs) deployed as situated agents in high-resolution visual environments require active perception -- the ability to dynamically decide where to look through operations like zooming, cropping, and panning. However, current training paradigms produce models…