研究人员开发了ROVER,一个旨在增强多模态大语言模型(MLLMs)在视觉推理任务中能力的创新插件。ROVER通过注入聚合上下文、提炼图像内线索以及整合跨对象和图像的历史感知证据的令牌三元组,来高效地路由以对象为中心的视觉证据。当与Qwen2.5-VL-7B集成时,ROVER在MM-GCoT和VideoEspresso等基准测试中显著提高了性能,证明了其在基于现实的多图像推理方面的有效性。 AI
影响 增强了多模态大语言模型利用视觉证据进行推理的能力,有可能提高在复杂视觉问答和视频理解任务中的性能。
排序理由 这是一篇描述多模态大语言模型新方法的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →