研究人员开发了一种名为距离不变位置编码(DIPE)的新位置编码方法,以解决多模态大语言模型(MLLM)中的“视觉衰减”问题。该问题会导致MLLM随着文本序列的增长而失去对视觉标记的关注,使文本生成脱离视觉上下文。DIPE根据模态交互来解耦位置编码,为模态内交互保留局部结构,同时为跨模态交互锚定感知邻近性。当与多模态RoPE集成时,DIPE已显示出在长上下文场景中保持稳定的视觉基础,而不会牺牲在标准基准测试上的性能。 AI
影响 这种新的编码方法可以提高多模态AI系统在处理长文本和图像序列时的可靠性。
排序理由 该集群包含一篇详细介绍改进多模态LLM性能的新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Distance Invariant Position Encoding
- Hugging Face
- Lin Chen
- Multimodal Large Language Models
- Multimodal RoPE
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →