PulseAugur
实时 12:37:06
English(EN) HumanMoveVQA: Can Video MLLMs reason about human movement in videos?

新基准HumanMoveVQA揭示多模态大语言模型在人类运动理解方面存在困难

研究人员推出了HumanMoveVQA,这是一个旨在评估多模态大语言模型(MLLMs)理解视频中复杂人类运动能力的新型基准。当前的多模态大语言模型在全局轨迹和方向推理方面存在困难,常常将复杂的运动简化为简单的语义标签。HumanMoveVQA通过提供超过10,000个问答对来解决这一问题,这些问答对侧重于运动聚合、顺序排序和轨迹推断,并利用了与世界一致的3D运动跟踪流程。评估表明,最先进的专有模型存在显著差距,尽管使用该基准的监督进行微调显示出改进的潜力。 AI

影响 该基准有望推动更复杂视频理解模型的发展,使其能够进行细致的人类运动分析。

排序理由 该集群描述了一篇介绍用于评估AI模型的新型基准的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新基准HumanMoveVQA揭示多模态大语言模型在人类运动理解方面存在困难

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Pulkit Gera, Faegheh Sardari, Asmar Nadeem, Valentina Bono, Padraig Boulton, Adrian Hilton, Armin Mustafa ·

    HumanMoveVQA: Can Video MLLMs reason about human movement in videos?

    arXiv:2606.27999v1 Announce Type: new Abstract: Despite the rapid advance of Multimodal Large Language Models (MLLMs) in high-level video understanding, a fundamental bottleneck remains: these models collapse complex human motion into coarse semantic labels. Existing benchmarks m…

  2. arXiv cs.CV TIER_1 English(EN) · Armin Mustafa ·

    HumanMoveVQA:视频多模态大模型能否推理视频中的人类运动?

    Despite the rapid advance of Multimodal Large Language Models (MLLMs) in high-level video understanding, a fundamental bottleneck remains: these models collapse complex human motion into coarse semantic labels. Existing benchmarks mostly focus on scene-centric events or local joi…