研究人员推出了 OmniPro 和 VideoOdyssey 两个新基准,旨在评估全模态大语言模型理解长而复杂视频内容的能力。OmniPro 专注于主动式流媒体视频理解,评估模型从视听流中决定何时以及说什么的能力,包含跨越不同任务的 2,700 个经人工验证的样本。VideoOdyssey 针对超长上下文视频理解,包含极长的视频(平均 109 分钟),并评估在长时间内的连续推理和记忆保持能力。这两个基准都突显了当前模型在长视域鲁棒性、音频利用以及细粒度感知方面的局限性,尤其是在处理非语音音频时。 AI
影响 这些基准将推动能够理解复杂、长格式视频内容的人工智能模型的发展,这对于监控、内容分析和自主系统等应用至关重要。
排序理由 两篇新研究论文介绍了用于评估人工智能模型的基准。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →