研究人员推出了SportsTime,这是一个新的基准数据集,旨在评估多模态大语言模型(MLLMs)对长篇体育视频的理解能力。该数据集包含超过14,000个问答对和50,000个时间证据标注,以应对定位和整合稀疏证据的挑战。为了解决这些问题,他们还提出了Chain-of-Time Reasoning (CoTR)方法,该方法通过基础证据组合和在推理过程中使用迭代式证据搜索循环来增强时间组合推理能力。 AI
影响 推动了复杂视频分析的多模态推理能力,可能改进体育分析和内容摘要等应用。
排序理由 学术论文,介绍用于视频理解的新基准数据集和推理方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →