English(EN) Terminal-Bench 2.1 in June 2026: The #1 Model Is One You Can't Use — Here's the Leaderboard That Actually Matters

美国出口订单使顶级AI编码模型停用；GPT-5.5引领可用工具

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 07:01

Claude Fable-5在Terminal-Bench 2.1基准测试中取得了88.0%的领先分数，超过了GPT-5.5。然而，该模型自6月12日起因美国出口管制令而无法使用。在目前可访问的工具中，由GPT-5.5驱动的Codex CLI以83.4%的分数领先，险胜Claude Code（使用Opus 4.8），得分为82.7%。该基准测试强调，编码代理的有效性显著受到其周围的工具链和支持工具的影响，而不仅仅是底层模型。 AI

影响强调了在实际AI应用中，工具和可用性相对于原始模型性能的关键作用。

排序理由编码任务AI模型的基准测试结果和分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — Claude Code tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — Claude Code tag TIER_1 English(EN) · Jovan Chan · 2026-07-01 07:01

Terminal-Bench 2.1 于 2026 年 6 月发布：排名第一的模型你无法使用——这才是真正重要的排行榜

<blockquote> This article was originally published on <a href="https://aicoderscope.com/blog/terminal-bench-21-june-2026-leaderboard-analysis/" rel="noopener noreferrer">aicoderscope.com</a> </blockquote> TL;DR: Claude Fable 5 leads Terminal-Bench 2.1 a…

报道来源 [1]

Terminal-Bench 2.1 于 2026 年 6 月发布：排名第一的模型你无法使用——这才是真正重要的排行榜

相关实体

相关话题