English(EN) MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

MCP-Atlas基准测试使用真实服务器评估LLM的工具使用能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-06 04:00

研究人员推出了MCP-Atlas，这是一个旨在评估大型语言模型工具使用能力的新基准测试。该基准测试包含36个真实的MCP服务器和220个工具，有1000个任务需要多步工作流和多工具调用编排。对先进模型的初步评估显示，尽管顶级模型的通过率超过50%，但常见的失败源于工具使用和任务理解方面的问题。 AI

影响为评估LLM的工具使用能力建立了新的标准，有望推动智能体能力和现实世界应用集成的改进。

排序理由引入了一个新的基准数据集来评估LLM的工具使用能力。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Chaithanya Bandi, Ben Hertzberg, Geobio Boo, Tejas Polakam, Jeff Da, Sami Hassaan, Manasi Sharma, Andrew Park, Ernesto Hernandez, Dan Rambado, Ivan Salazar, Rafael Cruz, Chetan Rane, Ben Levin, Brad Kenstler, Bing Liu · 2026-05-06 04:00

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

arXiv:2602.00933v2 Announce Type: replace-cross Abstract: The Model Context Protocol (MCP) is rapidly becoming the standard interface for Large Language Models (LLMs) to discover and invoke external tools. However, existing evaluations often fail to capture the complexity of real…

报道来源 [1]

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

相关实体

相关话题