OpenAI 的 GPT-5.5 在一个名为 Agents Last Exam (ALE) 的新 AI 基准测试中,性能优于 Anthropic 的 Claude Fable 5。该基准测试由伯克利 RDI 联合 300 多名专家开发,用于测试自主 AI Agent。这一结果令人惊讶,因为 Claude Fable 5 此前被认为是此类任务的领先模型。 AI
影响 为 AI Agent 设定了新的性能标准,可能改变竞争格局并影响未来的发展重点。
排序理由 新模型版本 (GPT-5.5) 发布,并附有基准测试性能数据。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →