PulseAugur
实时 08:45:42
English(EN) Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models

新框架解决多模态大语言模型中的注意力分散问题

研究人员发现了一种称为注意力分散的现象,它会损害多模态大语言模型(MLLMs)的推理能力,尤其是在视觉问答任务中。当模型在复杂推理过程中,其视觉注意力从相关区域分散开时,就会发生这种情况。为了解决这个问题,提出了一种新的无需训练的框架——视觉区域引导注意力(VRGA),它通过重新加权注意力来使模型专注于关键视觉元素。 AI

影响 缓解了多模态大语言模型的一个关键限制,有望提高其在视觉推理任务中的可靠性。

排序理由 该集群包含一篇学术论文,详细介绍了一种改进多模态大语言模型推理的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Ruiying Peng, Xueyu Wu, Jing Lei, Lu Hou, Yuanzheng Ma, Xiaohui Li ·

    Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models

    arXiv:2603.14184v2 Announce Type: replace-cross Abstract: Multimodal large language models (MLLMs) often suffer from perceptual impairments under extended reasoning modes, particularly in visual question answering (VQA) tasks. We identify attention dispersion as the underlying ca…