近期对 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 在 HumanEval 基准测试上的评估显示,其准确率差距小于模型官方卡片报告的数值。当使用相同的零样本提示(zero-shot prompts)对 164 个 Python 问题进行测试时,GPT-4o 的准确率为 86.1%,Claude 3.5 Sonnet 达到 90.1%,Gemini 1.5 Pro 得分为 84.1%。分析表明,这些模型的失败模式比 topline pass@1 指标更能揭示其真实编码能力。 AI
影响 领先模型在真实编码性能上的差异比报告的要小,这表明需要进行细致的评估。
排序理由 该集群分析的是现有模型的基准测试结果,而非新发布。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →