Claude Fable-5在Terminal-Bench 2.1基准测试中取得了88.0%的领先分数,超过了GPT-5.5。然而,该模型自6月12日起因美国出口管制令而无法使用。在目前可访问的工具中,由GPT-5.5驱动的Codex CLI以83.4%的分数领先,险胜Claude Code(使用Opus 4.8),得分为82.7%。该基准测试强调,编码代理的有效性显著受到其周围的工具链和支持工具的影响,而不仅仅是底层模型。 AI
影响 强调了在实际AI应用中,工具和可用性相对于原始模型性能的关键作用。
排序理由 编码任务AI模型的基准测试结果和分析。[lever_c_demoted from research: ic=1 ai=1.0]
在 dev.to — Claude Code tag 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →