一项由加州大学伯克利分校等机构研究人员开发的新基准测试“智能体最后的考试”(ALE)揭示了 AI 智能体性能方面令人惊讶的结果。在最具挑战性的任务中,Anthropic 的 Claude Fable 5 和 OpenAI 的 GPT 5.5 等领先模型得分均为零,表明在处理复杂、真实世界任务方面存在显著局限性。在稍具挑战性的任务上进行测试时,GPT 5.5 的表现优于 Claude Fable 5,这与之前的基准测试结果有所不同。 AI
影响 该基准测试突显了 AI 智能体理论性能与实际应用之间的差距,表明尽管在传统基准测试中表现强劲,但当前模型在处理复杂、真实世界任务方面仍存在困难。
排序理由 该集群描述了一个新的 AI 智能体基准测试,详细介绍了其方法论和初步结果,这是对该领域的一项面向研究的贡献。[lever_c_demoted from research: ic=1 ai=1.0]
- Adobe After Effects
- Agents' Last Exam
- ALE Claw
- Anthropic
- Claude Code
- Claude Fable 5
- Claude Opus 4.7
- Claude Opus 4.8
- Codex
- Cursor CLI
- GPT 5.5
- OpenAI
- UC Berkeley
- Unreal Engine
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →