PulseAugur
实时 15:30:25
English(EN) Staying VIGILant: Mitigating Visual Laziness via Counterfactual Visual Alignment in MLLMs

新的VIGIL框架解决了多模态大语言模型的视觉惰性问题

研究人员推出了一种名为VIGIL的新型强化学习框架,旨在解决多模态大语言模型(MLLMs)中的“视觉惰性”问题。该问题会导致MLLMs在内部处理正确证据的情况下,生成与视觉输入相矛盾的响应。VIGIL通过最大化视觉输入和生成文本之间的互信息,将焦点从基于文本的奖励转移到因果视觉基础。它会惩罚那些在视觉注意力被遮蔽时自信地犯错的模型,从而在不牺牲纯文本能力的情况下提高幻觉和推理基准的性能。 AI

影响 这项研究通过减少幻觉和改善视觉基础,有望带来更可靠、更准确的多模态人工智能系统。

排序理由 该集群描述了一篇关于改进多模态大语言模型的新颖框架的新研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的VIGIL框架解决了多模态大语言模型的视觉惰性问题

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Xi Xiao, Chen Liu, Chih-Ting Liao, Yunbei Zhang, Qizhen Lan, Yuxiang Wei, Lin Zhao, Janet Wang, Jianyang Gu, Muchao Ye, Tianyang Wang, Hao Xu ·

    Staying VIGILant: Mitigating Visual Laziness via Counterfactual Visual Alignment in MLLMs

    arXiv:2606.26387v1 Announce Type: cross Abstract: Multimodal large language models (MLLMs) extend large language models (LLMs) with visual perception, enabling joint reasoning over images and text. Despite inheriting strong reasoning capabilities from LLMs, they remain prone to h…

  2. arXiv cs.CL TIER_1 English(EN) · Hao Xu ·

    Staying VIGILant: Mitigating Visual Laziness via Counterfactual Visual Alignment in MLLMs

    Multimodal large language models (MLLMs) extend large language models (LLMs) with visual perception, enabling joint reasoning over images and text. Despite inheriting strong reasoning capabilities from LLMs, they remain prone to hallucinations that contradict their visual inputs.…