研究人员开发了PhysTool-Bench,一个新的基准,旨在评估多模态大型语言模型(MLLM)在理解和使用物理工具方面的能力。该基准包含超过2500个查询,涉及各行各业近2700种真实世界的工具。测试显示,即使是表现最好的模型也面临显著困难,仅能识别约58.7%的工具,并成功完成21.0%的任务,这凸显了它们与物理世界互动能力的关键差距。 AI
影响 凸显了当前MLLM在具身智能方面的重大局限性,表明这是现实世界机器人应用的一个瓶颈。
排序理由 该集群包含一篇介绍用于评估AI模型的新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →