研究人员推出了HanDyVQA,一个旨在评估对细粒度手部-物体交互动态的理解能力的新视频问答基准。该基准包含超过11,000个问答对,涵盖六种问题类型,侧重于操作方式、运动和部件级状态变化。即使是Gemini 2.5 Pro等先进模型也表现不佳,平均准确率仅为73%,而人类的准确率为97%,这凸显了在空间关系和几何理解方面持续存在的挑战。 AI
影响 突出了当前视频基础模型在理解复杂人机交互方面的局限性,为未来研究提供指导。
排序理由 该集群描述了一个用于评估AI模型在特定任务上表现的新学术基准,发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →