研究人员开发了 DexHoldem,这是一个用于评估具身 AI 系统在真实世界灵巧操作任务(特别是玩德州扑克)的新基准。该系统包括用于操作的 ShadowHand,一个包含 1,470 个演示的数据集,以及用于原始技能执行和代理感知的基准。初步测试显示不同模型的性能各异,Opus 4.7 在感知的严格问题级别准确性方面表现出色,而 GPT 5.5 在平均字段级别准确性方面领先,凸显了在闭环部署中将感知与策略相结合的挑战。 AI
影响 引入了一个新的物理基准来评估具身 AI,推动了集成感知和操作系统的发展。
排序理由 发布了一篇介绍具身 AI 系统新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →