English(EN) Grounding Video Reasoning in Physical Signals

将视频推理建立在物理信号之上

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-23 17:17

研究人员开发了一个新的基准来评估物理视频理解能力，超越了简单的事件识别，以评估模型在时间和空间上精确定位事件的能力。该基准包含来自四个来源的视频片段，涵盖六个物理领域，并在不同的提示家族和输入条件下测试模型。研究结果表明，虽然基于物理的推理是最强的，但空间定位仍然是一个重大挑战，这表明未来的基准应包括物理上可定位、提示感知和扰动感知的诊断。 AI

影响引入了一个新的基准，以推动视频推理模型超越简单的事件识别，实现物理基础。

排序理由这是一篇介绍视频理解新基准的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Shaogang Gong · 2026-04-23 17:17

将视频推理建立在物理信号之上

Physical video understanding requires more than naming an event correctly. A model can answer a question about pouring, sliding, or collision from textual regularities while still failing to localize the event in time or space. We introduce a grounded benchmark for physical video…

报道来源 [1]

将视频推理建立在物理信号之上

相关实体

相关话题