公共LLM基准测试由于其训练数据无意中包含了基准测试问题,正变得饱和且难以区分顶级模型。在HumanEval、MMLU和SWE-bench等基准测试中观察到的这种污染问题意味着模型可以获得近乎完美的分数,使得基准测试在衡量真正进展方面无效。该领域正通过增强的测试用例和私有评估来应对,但这些新方法的经济性和透明度值得仔细审视。 AI
影响 随着当前基准测试的饱和,需要新的评估方法来准确跟踪LLM的进展。
排序理由 文章讨论了LLM基准测试的饱和和污染问题,这是一个关于评估方法的研究型话题。[lever_c_demoted from research: ic=1 ai=1.0]
- ChatGPT
- Claude 3.5 Sonnet
- Claude 4.5
- Claude Opus 4.7
- Codex
- EvalPlus
- Gemini 3 Flash
- GPQA Diamond
- GPT-3
- GPT-4
- GPT-5.2
- HumanEval
- MMLU
- OpenAI
- SWE-bench
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →