PulseAugur
实时 15:23:57
English(EN) An LLM benchmark is only useful for as long as it's hard

由于训练数据污染,LLM基准测试很快饱和

公共LLM基准测试由于其训练数据无意中包含了基准测试问题,正变得饱和且难以区分顶级模型。在HumanEval、MMLU和SWE-bench等基准测试中观察到的这种污染问题意味着模型可以获得近乎完美的分数,使得基准测试在衡量真正进展方面无效。该领域正通过增强的测试用例和私有评估来应对,但这些新方法的经济性和透明度值得仔细审视。 AI

影响 随着当前基准测试的饱和,需要新的评估方法来准确跟踪LLM的进展。

排序理由 文章讨论了LLM基准测试的饱和和污染问题,这是一个关于评估方法的研究型话题。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Arthur ·

    An LLM benchmark is only useful for as long as it's hard

    <p>The general shape of the problem is that every public LLM benchmark is on a saturation clock that runs from the moment of its publication to the moment a model's training corpus has eaten it. The clock has been running, on the visible benchmarks of the last five years, for som…