English(EN) A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

新基准揭示了多模态大语言模型视频摘要中的位置偏差

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员开发了一个新的基准来系统性地评估多模态大语言模型（MLLMs）在摘要多个视频时的位置偏差。他们的发现表明，摘要的质量会受到视频呈现给模型的顺序的影响，这种偏差因不同领域和模型而异。该研究还探讨了基于提示的缓解技术，并得出结论认为，当前的视频摘要系统仍然容易受到输入顺序的影响，这凸显了对更鲁棒、与顺序无关的多模态系统的需求。 AI

影响强调了当前多模态大语言模型的一个关键局限性，推动了视频理解任务中更鲁棒、与顺序无关的系统的发展。

排序理由学术论文，介绍了用于MLLMs的新基准和评估方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Huangchen Xu, Yuan Wu, Yi Chang · 2026-06-04 04:00

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

arXiv:2606.04596v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quali…

报道来源 [1]

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

相关实体

相关话题