研究人员在多模态大语言模型(MLLMs)对多个视频进行摘要时,发现存在位置偏差。这种偏差意味着摘要的质量可能取决于视频呈现给模型的顺序。研究人员使用 ActivityNet 和 News 视频创建了一个新的基准,以测试九种不同 MLLMs 的这种效应,结果显示偏差受到视频领域和所用模型的具体影响。研究表明,当前的多视频摘要系统对输入顺序敏感,突显了对更鲁棒、顺序无关的多模态系统的需求。 AI
影响 突出了当前 MLLMs 在多视频任务中的一个关键限制,推动了更鲁棒、顺序无关的多模态系统的发展。
排序理由 该集群包含一篇学术论文,详细介绍了对特定 AI 模型行为的系统性评估。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →