English(EN) A Benchmark for Omni-Modal Reasoning in Long Videos

新基准LongShOTBench测试长视频全模态推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:00

研究人员推出了LongShOTBench，一个旨在评估长视频全模态推理能力的新基准。该基准整合了视觉、语音和环境音频，并提供了详细的诊断评估细则。同时，他们开发了LongShOTAgent，一个无需训练的智能体，在新测试平台上表现出色，超越了当前的多模态大语言模型。 AI

排序理由该集群描述了一个用于评估AI在长视频理解能力方面的新学术基准和相关智能体的发布。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad An… · 2026-06-17 04:00

A Benchmark for Omni-Modal Reasoning in Long Videos

arXiv:2512.16978v2 Announce Type: replace Abstract: Long-form omni-modal video understanding requires integrating vision, speech, and ambient audio with coherent long-context reasoning. Existing video benchmarks often trade off temporal scale, modality coverage, open-ended intera…