PulseAugur
实时 13:54:32

新基准揭示AI在细粒度手部-物体交互方面存在困难

研究人员推出了HanDyVQA,一个旨在评估对细粒度手部-物体交互动态的理解能力的新视频问答基准。该基准包含超过11,000个问答对,涵盖六种问题类型,侧重于操作方式、运动和部件级状态变化。即使是Gemini 2.5 Pro等先进模型也表现不佳,平均准确率仅为73%,而人类的准确率为97%,这凸显了在空间关系和几何理解方面持续存在的挑战。 AI

影响 突出了当前视频基础模型在理解复杂人机交互方面的局限性,为未来研究提供指导。

排序理由 该集群描述了一个用于评估AI模型在特定任务上表现的新学术基准,发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Masatoshi Tateno, Gido Kato, Hirokatsu Kataoka, Yoichi Sato, Takuma Yagi ·

    HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics

    arXiv:2512.00885v2 Announce Type: replace Abstract: Hand-object interaction (HOI) inherently involves dynamics where human manipulations produce distinct spatio-temporal effects on objects. However, existing semantic HOI benchmarks focused either on manipulation or on the resulti…