PulseAugur
实时 09:37:13
English(EN) A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

新基准揭示了多模态大语言模型视频摘要中的位置偏差

研究人员开发了一个新的基准来系统性地评估多模态大语言模型(MLLMs)在摘要多个视频时的位置偏差。他们的发现表明,摘要的质量会受到视频呈现给模型的顺序的影响,这种偏差因不同领域和模型而异。该研究还探讨了基于提示的缓解技术,并得出结论认为,当前的视频摘要系统仍然容易受到输入顺序的影响,这凸显了对更鲁棒、与顺序无关的多模态系统的需求。 AI

影响 强调了当前多模态大语言模型的一个关键局限性,推动了视频理解任务中更鲁棒、与顺序无关的系统的发展。

排序理由 学术论文,介绍了用于MLLMs的新基准和评估方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Huangchen Xu, Yuan Wu, Yi Chang ·

    A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

    arXiv:2606.04596v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quali…