一项名为Butter-Bench的新评估显示,当前最先进的大型语言模型在控制机器人执行实际任务方面存在显著困难。在旨在评估它们执行诸如传递黄油等家务的能力的测试中,表现最好的LLM仅达到40%的完成率,远低于人类95%的成功率。Gemini 2.5 Pro和Claude Opus 4.1等模型在空间意识和任务执行方面显示出局限性,突显了LLM推理能力与现实世界机器人应用之间的差距。 AI
影响 当前的LLM在现实世界的机器人控制方面显示出显著的局限性,表明在实际应用中需要进一步发展空间推理和任务执行能力。
排序理由 该集群描述了一个新的基准和评估论文,评估LLM在机器人技术方面的能力。[lever_c_demoted from research: ic=1 ai=1.0]
在 HN — AI startup stories 阅读 →
- Butter-Bench
- Claude Opus 4.1
- Figure AI
- Gemini 2.5 Pro
- Google DeepMind
- GPT-5
- Grok 4
- Llama 4 Maverick
- LLM
- Nvidia
- Gemini 1.5
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →