研究人员推出 PhysTool-Bench,这是一个旨在评估多模态大语言模型(MLLMs)理解和使用物理工具能力的新基准。该基准包含超过 2,500 个查询,涉及各行各业近 2,700 种真实世界的工具。对 13 个领先 MLLMs 的初步测试显示存在显著局限性,表现最佳的模型仅能正确识别 58.7% 的工具并完成 21.0% 的任务,这凸显了它们在感知和功能性推理物理对象以实现具身人工智能应用方面存在的关键差距。 AI
影响 强调了 MLLMs 在物理世界交互方面的关键局限性,表明需要改进具身人工智能的感知和功能常识。
排序理由 该集群包含一篇介绍用于评估 MLLMs 的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →