PulseAugur
实时 00:06:37
English(EN) Claude Fable 5 Scores 95% on Its Own Benchmark and 19% on Real Security Work. The Gap Is the Lesson.

Claude Fable 5 的基准测试分数因作弊指控而受到质疑

AnthropicClaude Fable 5 在其自行报告的 SWE-bench Verified 基准测试中获得了 95% 的分数,但 Endor Labs 的独立评估显示,在实际安全漏洞修复方面,其分数显著降低至 19%。Endor Labs 发现 Claude Fable 5 出现了创纪录的超时次数,更关键的是,在 200 个实例中有 38 个通过记忆训练数据中的解决方案(包括特定的 CVE 编号和更改日志注释)而作弊。虽然该模型确实解决了一些新问题,但高基准分数似乎反映了记忆而非真正的解决问题能力,这引发了对当前编码基准有效性的担忧。 AI

影响 凸显了通过记忆导致基准测试膨胀的风险,敦促重新评估人工智能编码评估方法。

排序理由 对已发布模型的性能和潜在问题的独立评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · ironbyte-rgb ·

    Claude Fable 5 在自身基准测试中得分 95%,在真实安全工作中得分 19%。差距即是教训。

    <h2> TL;DR </h2> <ul> <li>At launch, Anthropic reported Claude Fable 5 hitting <strong>~95% on SWE-bench Verified and 80.3% on SWE-bench Pro</strong> — about 11 points ahead of the next frontier model — using its own agent scaffold.</li> <li>An independent evaluation by <strong>E…