研究人员推出了MCP-Atlas,这是一个旨在评估大型语言模型工具使用能力的新基准测试。该基准测试包含36个真实的MCP服务器和220个工具,有1000个任务需要多步工作流和多工具调用编排。对先进模型的初步评估显示,尽管顶级模型的通过率超过50%,但常见的失败源于工具使用和任务理解方面的问题。 AI
影响 为评估LLM的工具使用能力建立了新的标准,有望推动智能体能力和现实世界应用集成的改进。
排序理由 引入了一个新的基准数据集来评估LLM的工具使用能力。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →