中文(ZH) “智能体最后的考试”，Fable 5竟然不敌GPT 5.5

新基准显示 GPT 5.5 在真实世界任务中超越 Claude Fable 5

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-12 04:13

一项由加州大学伯克利分校等机构研究人员开发的新基准测试“智能体最后的考试”（ALE）揭示了 AI 智能体性能方面令人惊讶的结果。在最具挑战性的任务中，Anthropic 的 Claude Fable 5 和 OpenAI 的 GPT 5.5 等领先模型得分均为零，表明在处理复杂、真实世界任务方面存在显著局限性。在稍具挑战性的任务上进行测试时，GPT 5.5 的表现优于 Claude Fable 5，这与之前的基准测试结果有所不同。 AI

影响该基准测试突显了 AI 智能体理论性能与实际应用之间的差距，表明尽管在传统基准测试中表现强劲，但当前模型在处理复杂、真实世界任务方面仍存在困难。

排序理由该集群描述了一个新的 AI 智能体基准测试，详细介绍了其方法论和初步结果，这是对该领域的一项面向研究的贡献。[lever_c_demoted from research: ic=1 ai=1.0]

在量子位 (QbitAI) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

量子位 (QbitAI) TIER_1 中文(ZH) · 一水 · 2026-06-12 04:13

"Agent的最后一次测试"，Fable 5意外败给GPT 5.5

最难档通通零蛋

报道来源 [1]

"Agent的最后一次测试"，Fable 5意外败给GPT 5.5

相关实体

相关话题