PulseAugur
实时 09:07:27
English(EN) Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use

新基准揭示MLLM在物理工具使用方面存在困难

研究人员开发了PhysTool-Bench,一个新的基准,旨在评估多模态大型语言模型(MLLM)在理解和使用物理工具方面的能力。该基准包含超过2500个查询,涉及各行各业近2700种真实世界的工具。测试显示,即使是表现最好的模型也面临显著困难,仅能识别约58.7%的工具,并成功完成21.0%的任务,这凸显了它们与物理世界互动能力的关键差距。 AI

影响 凸显了当前MLLM在具身智能方面的重大局限性,表明这是现实世界机器人应用的一个瓶颈。

排序理由 该集群包含一篇介绍用于评估AI模型的新基准的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Zhixin Ma, Yutong Zhou, Yongqi Li, Chong-Wah Ngo, Wenjie Li ·

    Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use

    arXiv:2606.10803v1 Announce Type: cross Abstract: Multimodal Large Language Models (MLLMs) excel at utilizing digital APIs and increasingly serve as the "brain" of embodied AI, instructing robots to interact with the physical world. In such embodied settings, a central capability…

  2. arXiv cs.AI TIER_1 English(EN) · Wenjie Li ·

    超越API:探究MLLM在物理工具使用中的极限

    Multimodal Large Language Models (MLLMs) excel at utilizing digital APIs and increasingly serve as the "brain" of embodied AI, instructing robots to interact with the physical world. In such embodied settings, a central capability is the use of physical tools, which underpins MLL…