Anthropic 的 Claude Fable 5 模型在编码基准测试中表现出卓越的性能,显著优于 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。在 SWE-Bench Pro 上,Fable 5 的成功率为 80.3%,而 GPT-5.5 为 58.6%,Gemini 3.1 Pro 为 54.2%。虽然 Fable 5 的定价高于 GPT-5.5,但其定位比 GPT-5.5 Pro 更具成本效益,以其成本提供了更好的编码性能。 AI
影响 在编码基准测试中设定了新的 SOTA,给竞争对手带来压力,并可能加速 AI 驱动的编码任务的采用。
排序理由 来自前沿实验室的新模型发布,附带基准测试结果。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
在 dev.to — Claude Code tag 阅读 →
- Anthropic
- Claude Fable 5
- Claude Opus 4.8
- Gemini 3.1 Pro
- GPT-5.5
- GPT-5.5 Pro
- OpenAI
- SWE-Bench Pro
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →