实体 PhysTool-Bench

PhysTool-Bench

PulseAugur coverage of PhysTool-Bench — every cluster mentioning PhysTool-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_82035 · Jun 9 · 12:49

新基准揭示多模态大语言模型在物理工具使用方面存在困难

研究人员推出 PhysTool-Bench，这是一个旨在评估多模态大语言模型（MLLMs）理解和使用物理工具能力的新基准。该基准包含超过 2,500 个查询，涉及各行各业近 2,700 种真实世界的工具。对 13 个领先 MLLMs 的初步测试显示存在显著局限性，表现最佳的模型仅能正确识别 58.7% 的工具并完成 21.0% 的任务，这凸显了它们在感知和功能性推理物理对象以实现具身人工智能应用方面存在的关键差距。