据报道,OpenAI 的新款 GPT-5.5 模型在充满挑战的 Agents' Last Exam 基准测试中表现优于 Anthropic 的 Claude Fable 5。这一结果表明 AI 代理能力取得了重大进展,可能改变竞争格局。 AI
影响 为 AI 代理设定了新的性能标杆,可能影响未来的开发和评估方法。
排序理由 来自前沿实验室的新模型发布,附带基准测试结果。[lever_c_demoted from frontier_release: ic=2 ai=1.0]
在 Mastodon — sigmoid.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →