PulseAugur
实时 00:36:02
English(EN) Terminal-Bench 2.1 in June 2026: The #1 Model Is One You Can't Use — Here's the Leaderboard That Actually Matters

美国出口订单使顶级AI编码模型停用;GPT-5.5引领可用工具

Claude Fable-5在Terminal-Bench 2.1基准测试中取得了88.0%的领先分数,超过了GPT-5.5。然而,该模型自6月12日起因美国出口管制令而无法使用。在目前可访问的工具中,由GPT-5.5驱动的Codex CLI以83.4%的分数领先,险胜Claude Code(使用Opus 4.8),得分为82.7%。该基准测试强调,编码代理的有效性显著受到其周围的工具链和支持工具的影响,而不仅仅是底层模型。 AI

影响 强调了在实际AI应用中,工具和可用性相对于原始模型性能的关键作用。

排序理由 编码任务AI模型的基准测试结果和分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — Claude Code tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

美国出口订单使顶级AI编码模型停用;GPT-5.5引领可用工具

报道来源 [1]

  1. dev.to — Claude Code tag TIER_1 English(EN) · Jovan Chan ·

    Terminal-Bench 2.1 于 2026 年 6 月发布:排名第一的模型你无法使用——这才是真正重要的排行榜

    <blockquote> <p>This article was originally published on <a href="https://aicoderscope.com/blog/terminal-bench-21-june-2026-leaderboard-analysis/" rel="noopener noreferrer">aicoderscope.com</a></p> </blockquote> <p><strong>TL;DR</strong>: Claude Fable 5 leads Terminal-Bench 2.1 a…