PulseAugur
实时 13:27:08
English(EN) Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

新的DIPE方法解决了多模态LLM中的视觉衰减问题

研究人员开发了一种名为距离不变位置编码(DIPE)的新位置编码方法,以解决多模态大语言模型(MLLM)中的“视觉衰减”问题。该问题会导致MLLM随着文本序列的增长而失去对视觉标记的关注,使文本生成脱离视觉上下文。DIPE根据模态交互来解耦位置编码,为模态内交互保留局部结构,同时为跨模态交互锚定感知邻近性。当与多模态RoPE集成时,DIPE已显示出在长上下文场景中保持稳定的视觉基础,而不会牺牲在标准基准测试上的性能。 AI

影响 这种新的编码方法可以提高多模态AI系统在处理长文本和图像序列时的可靠性。

排序理由 该集群包含一篇详细介绍改进多模态LLM性能的新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的DIPE方法解决了多模态LLM中的视觉衰减问题

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang ·

    Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

    arXiv:2603.10863v2 Announce Type: replace Abstract: Despite the remarkable capabilities of Multimodal Large Language Models (MLLMs), they still suffer from visual fading in long-context scenarios. Specifically, the attention to visual tokens diminishes as the text sequence length…