English(EN) HumanMoveVQA: Can Video MLLMs reason about human movement in videos?

新基准HumanMoveVQA揭示多模态大语言模型在人类运动理解方面存在困难

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-26 11:52

研究人员推出了HumanMoveVQA，这是一个旨在评估多模态大语言模型（MLLMs）理解视频中复杂人类运动能力的新型基准。当前的多模态大语言模型在全局轨迹和方向推理方面存在困难，常常将复杂的运动简化为简单的语义标签。HumanMoveVQA通过提供超过10,000个问答对来解决这一问题，这些问答对侧重于运动聚合、顺序排序和轨迹推断，并利用了与世界一致的3D运动跟踪流程。评估表明，最先进的专有模型存在显著差距，尽管使用该基准的监督进行微调显示出改进的潜力。 AI

影响该基准有望推动更复杂视频理解模型的发展，使其能够进行细致的人类运动分析。

排序理由该集群描述了一篇介绍用于评估AI模型的新型基准的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Pulkit Gera, Faegheh Sardari, Asmar Nadeem, Valentina Bono, Padraig Boulton, Adrian Hilton, Armin Mustafa · 2026-06-29 04:00

HumanMoveVQA: Can Video MLLMs reason about human movement in videos?

arXiv:2606.27999v1 Announce Type: new Abstract: Despite the rapid advance of Multimodal Large Language Models (MLLMs) in high-level video understanding, a fundamental bottleneck remains: these models collapse complex human motion into coarse semantic labels. Existing benchmarks m…
arXiv cs.CV TIER_1 English(EN) · Armin Mustafa · 2026-06-26 11:52

HumanMoveVQA：视频多模态大模型能否推理视频中的人类运动？

Despite the rapid advance of Multimodal Large Language Models (MLLMs) in high-level video understanding, a fundamental bottleneck remains: these models collapse complex human motion into coarse semantic labels. Existing benchmarks mostly focus on scene-centric events or local joi…

报道来源 [2]

HumanMoveVQA: Can Video MLLMs reason about human movement in videos?

HumanMoveVQA：视频多模态大模型能否推理视频中的人类运动？

相关实体

相关话题