研究人员推出了一种名为VIGIL的新型强化学习框架,旨在解决多模态大语言模型(MLLMs)中的“视觉惰性”问题。该问题会导致MLLMs在内部处理正确证据的情况下,生成与视觉输入相矛盾的响应。VIGIL通过最大化视觉输入和生成文本之间的互信息,将焦点从基于文本的奖励转移到因果视觉基础。它会惩罚那些在视觉注意力被遮蔽时自信地犯错的模型,从而在不牺牲纯文本能力的情况下提高幻觉和推理基准的性能。 AI
影响 这项研究通过减少幻觉和改善视觉基础,有望带来更可靠、更准确的多模态人工智能系统。
排序理由 该集群描述了一篇关于改进多模态大语言模型的新颖框架的新研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →