(ET) GPT-4o vs Claude 3.5 Sonnet: HumanEval Pass@1 Gap

GPT-4o、Claude 3.5 Sonnet 在真实编码测试中的准确率差距缩小

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 18:04

近期对 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 在 HumanEval 基准测试上的评估显示，其准确率差距小于模型官方卡片报告的数值。当使用相同的零样本提示（zero-shot prompts）对 164 个 Python 问题进行测试时，GPT-4o 的准确率为 86.1%，Claude 3.5 Sonnet 达到 90.1%，Gemini 1.5 Pro 得分为 84.1%。分析表明，这些模型的失败模式比 topline pass@1 指标更能揭示其真实编码能力。 AI

影响领先模型在真实编码性能上的差异比报告的要小，这表明需要进行细致的评估。

排序理由该集群分析的是现有模型的基准测试结果，而非新发布。 [lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

GPT-4o、Claude 3.5 Sonnet 在真实编码测试中的准确率差距缩小

报道来源 [1]

dev.to — LLM tag TIER_1 (ET) · TildAlice · 2026-06-01 18:04

GPT-4o 对比 Claude 3.5 Sonnet：HumanEval Pass@1 差距

<h2> The 12% Accuracy Gap Nobody Talks About </h2> <p>GPT-4o scores 90.2% on HumanEval <a href="mailto:pass@1">pass@1</a>. Claude 3.5 Sonnet hits 92.0%. Gemini 1.5 Pro lands at 84.1%. That's the headline from the model cards, but here's what actually happens when you run the same…

报道来源 [1]

GPT-4o 对比 Claude 3.5 Sonnet：HumanEval Pass@1 差距

相关实体

相关话题