新基准揭示AI视频推理能力的局限性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 11:06

研究人员推出了TraceAV-Bench，一个旨在评估处理长音频-视频时多跳推理能力的新基准。该基准包含578个视频中的2200多个问题，总时长超过339小时，平均推理链长度为3.68跳。包括Google的Gemini 3.1 Pro和名为Ming-Flash-Omni-2.0的开源模型在内的当前领先模型，准确率仅分别为68.29%和51.70%，显示出显著的局限性。该基准还强调，对多模态幻觉的鲁棒性与一般推理性能没有强相关性。 AI

影响凸显了当前AI模型在处理扩展音频-视频内容进行复杂推理方面存在的显著差距。

排序理由引入用于评估AI模型能力的新基准数据集。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Wentao Zhang · 2026-05-08 11:06

TraceAV-Bench: Benchmarking Multi-Hop Trajectory Reasoning over Long Audio-Visual Videos

Real-world audio-visual understanding requires chaining evidence that is sparse, temporally dispersed, and split across the visual and auditory streams, whereas existing benchmarks largely fail to evaluate this capability. They restrict videos to short clips, isolate modalities, …

报道来源 [1]

TraceAV-Bench: Benchmarking Multi-Hop Trajectory Reasoning over Long Audio-Visual Videos

相关实体

相关话题