English(EN) Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models

新框架解决多模态大语言模型中的注意力分散问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员发现了一种称为注意力分散的现象，它会损害多模态大语言模型（MLLMs）的推理能力，尤其是在视觉问答任务中。当模型在复杂推理过程中，其视觉注意力从相关区域分散开时，就会发生这种情况。为了解决这个问题，提出了一种新的无需训练的框架——视觉区域引导注意力（VRGA），它通过重新加权注意力来使模型专注于关键视觉元素。 AI

影响缓解了多模态大语言模型的一个关键限制，有望提高其在视觉推理任务中的可靠性。

排序理由该集群包含一篇学术论文，详细介绍了一种改进多模态大语言模型推理的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ruiying Peng, Xueyu Wu, Jing Lei, Lu Hou, Yuanzheng Ma, Xiaohui Li · 2026-05-22 04:00

Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models

arXiv:2603.14184v2 Announce Type: replace-cross Abstract: Multimodal large language models (MLLMs) often suffer from perceptual impairments under extended reasoning modes, particularly in visual question answering (VQA) tasks. We identify attention dispersion as the underlying ca…

报道来源 [1]

Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models

相关实体

相关话题