新基准揭示AI在细粒度手部-物体交互方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员推出了HanDyVQA，一个旨在评估对细粒度手部-物体交互动态的理解能力的新视频问答基准。该基准包含超过11,000个问答对，涵盖六种问题类型，侧重于操作方式、运动和部件级状态变化。即使是Gemini 2.5 Pro等先进模型也表现不佳，平均准确率仅为73%，而人类的准确率为97%，这凸显了在空间关系和几何理解方面持续存在的挑战。 AI

影响突出了当前视频基础模型在理解复杂人机交互方面的局限性，为未来研究提供指导。

排序理由该集群描述了一个用于评估AI模型在特定任务上表现的新学术基准，发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Masatoshi Tateno, Gido Kato, Hirokatsu Kataoka, Yoichi Sato, Takuma Yagi · 2026-06-16 04:00

HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics

arXiv:2512.00885v2 Announce Type: replace Abstract: Hand-object interaction (HOI) inherently involves dynamics where human manipulations produce distinct spatio-temporal effects on objects. However, existing semantic HOI benchmarks focused either on manipulation or on the resulti…

报道来源 [1]

HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics

相关实体

相关话题