研究人员开发了一个新的基准来评估物理视频理解能力,超越了简单的事件识别,以评估模型在时间和空间上精确定位事件的能力。该基准包含来自四个来源的视频片段,涵盖六个物理领域,并在不同的提示家族和输入条件下测试模型。研究结果表明,虽然基于物理的推理是最强的,但空间定位仍然是一个重大挑战,这表明未来的基准应包括物理上可定位、提示感知和扰动感知的诊断。 AI
影响 引入了一个新的基准,以推动视频推理模型超越简单的事件识别,实现物理基础。
排序理由 这是一篇介绍视频理解新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →