PulseAugur
实时 01:24:09
(ET) GPT-4o vs Claude 3.5 Sonnet: HumanEval Pass@1 Gap

GPT-4o、Claude 3.5 Sonnet 在真实编码测试中的准确率差距缩小

近期对 GPT-4oClaude 3.5 SonnetGemini 1.5 ProHumanEval 基准测试上的评估显示,其准确率差距小于模型官方卡片报告的数值。当使用相同的零样本提示(zero-shot prompts)对 164 个 Python 问题进行测试时,GPT-4o 的准确率为 86.1%,Claude 3.5 Sonnet 达到 90.1%,Gemini 1.5 Pro 得分为 84.1%。分析表明,这些模型的失败模式比 topline pass@1 指标更能揭示其真实编码能力。 AI

影响 领先模型在真实编码性能上的差异比报告的要小,这表明需要进行细致的评估。

排序理由 该集群分析的是现有模型的基准测试结果,而非新发布。 [lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

GPT-4o、Claude 3.5 Sonnet 在真实编码测试中的准确率差距缩小

报道来源 [1]

  1. dev.to — LLM tag TIER_1 (ET) · TildAlice ·

    GPT-4o 对比 Claude 3.5 Sonnet:HumanEval Pass@1 差距

    <h2> The 12% Accuracy Gap Nobody Talks About </h2> <p>GPT-4o scores 90.2% on HumanEval <a href="mailto:pass@1">pass@1</a>. Claude 3.5 Sonnet hits 92.0%. Gemini 1.5 Pro lands at 84.1%. That's the headline from the model cards, but here's what actually happens when you run the same…