English(EN) A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

MLLMs 在多视频摘要中表现出位置偏差

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-03 08:34

研究人员在多模态大语言模型（MLLMs）对多个视频进行摘要时，发现存在位置偏差。这种偏差意味着摘要的质量可能取决于视频呈现给模型的顺序。研究人员使用 ActivityNet 和 News 视频创建了一个新的基准，以测试九种不同 MLLMs 的这种效应，结果显示偏差受到视频领域和所用模型的具体影响。研究表明，当前的多视频摘要系统对输入顺序敏感，突显了对更鲁棒、顺序无关的多模态系统的需求。 AI

影响突出了当前 MLLMs 在多视频任务中的一个关键限制，推动了更鲁棒、顺序无关的多模态系统的发展。

排序理由该集群包含一篇学术论文，详细介绍了对特定 AI 模型行为的系统性评估。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Huangchen Xu, Yuan Wu, Yi Chang · 2026-06-04 04:00

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

arXiv:2606.04596v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quali…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-03 08:34

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quality of a per-video summary can change with the vi…

报道来源 [2]

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

相关实体

相关话题