研究人员推出了TraceAV-Bench,一个旨在评估处理长音频-视频时多跳推理能力的新基准。该基准包含578个视频中的2200多个问题,总时长超过339小时,平均推理链长度为3.68跳。包括Google的Gemini 3.1 Pro和名为Ming-Flash-Omni-2.0的开源模型在内的当前领先模型,准确率仅分别为68.29%和51.70%,显示出显著的局限性。该基准还强调,对多模态幻觉的鲁棒性与一般推理性能没有强相关性。 AI
影响 凸显了当前AI模型在处理扩展音频-视频内容进行复杂推理方面存在的显著差距。
排序理由 引入用于评估AI模型能力的新基准数据集。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →