PulseAugur
实时 11:13:34
English(EN) A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

MLLMs 在多视频摘要中表现出位置偏差

研究人员在多模态大语言模型(MLLMs)对多个视频进行摘要时,发现存在位置偏差。这种偏差意味着摘要的质量可能取决于视频呈现给模型的顺序。研究人员使用 ActivityNet 和 News 视频创建了一个新的基准,以测试九种不同 MLLMs 的这种效应,结果显示偏差受到视频领域和所用模型的具体影响。研究表明,当前的多视频摘要系统对输入顺序敏感,突显了对更鲁棒、顺序无关的多模态系统的需求。 AI

影响 突出了当前 MLLMs 在多视频任务中的一个关键限制,推动了更鲁棒、顺序无关的多模态系统的发展。

排序理由 该集群包含一篇学术论文,详细介绍了对特定 AI 模型行为的系统性评估。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Huangchen Xu, Yuan Wu, Yi Chang ·

    A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

    arXiv:2606.04596v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quali…

  2. Hugging Face Daily Papers TIER_1 English(EN) ·

    A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

    Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quality of a per-video summary can change with the vi…