English(EN) TRACE: Evidence Grounding-Guided Multi-Video Event Understanding and Claim Generation

TRACE框架通过证据导引提升多视频事件理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了TRACE，一个旨在改进多视频事件理解和声明生成的新框架。TRACE采用先导引后推理的策略，首先使用OCR和对象检测为每个视频创建可文本搜索的时间线。然后，一个纯文本LLM在视觉推理开始之前定位相关证据，从而提高事实完整性和归因保真度。实验表明，TRACE在MAGMaR 2026等基准测试中显著优于基线模型，取得了最先进的成果。 AI

影响增强了AI处理和推理多个视频源的能力，提高了事实准确性和引用。

排序理由这是一篇描述新框架及其在基准测试上实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Pengyu Yan, Akhil Gorugantu, Mahesh Bhosale, Abdul Wasi, Vishvesh Trivedi, David Doermann · 2026-06-02 04:00

TRACE：基于证据的引导式多视频事件理解与声明生成

arXiv:2605.16740v2 Announce Type: replace Abstract: Multi-video event understanding demands models that can locate and attribute query-relevant evidence scattered across long, heterogeneous video corpora. Existing large vision-language models (LVLMs) often underperform in this re…

报道来源 [1]

TRACE：基于证据的引导式多视频事件理解与声明生成

相关实体

相关话题