本地大型语言模型在多步终端任务上的表现往往不佳,尽管它们在 MMLU 等标准基准测试中表现出色。这种差异源于传统基准测试衡量的是单轮推理,未能考虑到代理模型需要选择工具、解析混乱的输出、维护状态以及从错误中恢复。为解决此问题,新的代理基准测试(如 Terminal-Bench 2.0)正在涌现,它们通过评估任务完成情况而非仅仅中间推理,在沙盒环境中对模型进行评估。 AI
影响 凸显了 LLM 基准测试表现与现实世界代理能力之间的差距,表明需要更强大的评估方法。
排序理由 文章讨论了当前 LLM 基准测试的局限性,并引入了一种评估现实世界终端任务中代理能力的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →