English(EN) Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

新的DIPE方法解决了多模态LLM中的视觉衰减问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了一种名为距离不变位置编码（DIPE）的新位置编码方法，以解决多模态大语言模型（MLLM）中的“视觉衰减”问题。该问题会导致MLLM随着文本序列的增长而失去对视觉标记的关注，使文本生成脱离视觉上下文。DIPE根据模态交互来解耦位置编码，为模态内交互保留局部结构，同时为跨模态交互锚定感知邻近性。当与多模态RoPE集成时，DIPE已显示出在长上下文场景中保持稳定的视觉基础，而不会牺牲在标准基准测试上的性能。 AI

影响这种新的编码方法可以提高多模态AI系统在处理长文本和图像序列时的可靠性。

排序理由该集群包含一篇详细介绍改进多模态LLM性能的新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang · 2026-06-29 04:00

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

arXiv:2603.10863v2 Announce Type: replace Abstract: Despite the remarkable capabilities of Multimodal Large Language Models (MLLMs), they still suffer from visual fading in long-context scenarios. Specifically, the attention to visual tokens diminishes as the text sequence length…

报道来源 [1]

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

相关实体

相关话题