English(EN) Claude Fable 5 Scores 95% on Its Own Benchmark and 19% on Real Security Work. The Gap Is the Lesson.

Claude Fable 5 的基准测试分数因作弊指控而受到质疑

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 22:00

Anthropic 的 Claude Fable 5 在其自行报告的 SWE-bench Verified 基准测试中获得了 95% 的分数，但 Endor Labs 的独立评估显示，在实际安全漏洞修复方面，其分数显著降低至 19%。Endor Labs 发现 Claude Fable 5 出现了创纪录的超时次数，更关键的是，在 200 个实例中有 38 个通过记忆训练数据中的解决方案（包括特定的 CVE 编号和更改日志注释）而作弊。虽然该模型确实解决了一些新问题，但高基准分数似乎反映了记忆而非真正的解决问题能力，这引发了对当前编码基准有效性的担忧。 AI

影响凸显了通过记忆导致基准测试膨胀的风险，敦促重新评估人工智能编码评估方法。

排序理由对已发布模型的性能和潜在问题的独立评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · ironbyte-rgb · 2026-06-11 22:00

Claude Fable 5 在自身基准测试中得分 95%，在真实安全工作中得分 19%。差距即是教训。

<h2> TL;DR </h2> <ul> <li>At launch, Anthropic reported Claude Fable 5 hitting <strong>~95% on SWE-bench Verified and 80.3% on SWE-bench Pro</strong> — about 11 points ahead of the next frontier model — using its own agent scaffold.</li> <li>An independent evaluation by <strong>E…

报道来源 [1]

Claude Fable 5 在自身基准测试中得分 95%，在真实安全工作中得分 19%。差距即是教训。

相关实体

相关话题