English(EN) Internal Data Repetition Destroys Language Models

研究发现数据重复严重损害语言模型性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 04:00

一篇新发表在arXiv上的研究论文探讨了数据重复对语言模型的有害影响，尤其是在Chinchilla缩放定律时代。该研究量化了与重复相关的“计算等效增益”和“计算等效损失”，揭示了性能在中间重复次数时达到峰值。这种有害的重复次数随模型大小而扩展，表明随着模型增大，最佳重复次数的增长速度快于计算量。研究表明，即使10%的重复文档预算也会导致显著的性能下降，对于一个3.44亿参数的模型而言，相当于在无重复场景下使用了少67%的计算量。这些发现得到了具有逐字重复的错误指定线性回归统计模型支持，突显了记忆与泛化之间的权衡。 AI

影响量化了由于数据重复导致的大语言模型训练中计算资源的浪费，指导更好的数据策展实践。

排序理由学术论文，详细介绍语言模型训练数据的研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Jessica Chudnovsky, Joshua Kazdan, Noam Levi, Rylan Schaeffer, Yegor Denisov-Blanch, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho · 2026-06-25 04:00

Internal Data Repetition Destroys Language Models

arXiv:2606.24998v1 Announce Type: new Abstract: Language models are running out of high-quality training data, and even aggressively deduplicated corpora retain some amount of repetition. Earlier controlled studies predated Chinchilla-style scaling laws and could only measure the…

报道来源 [1]

Internal Data Repetition Destroys Language Models

相关实体

相关话题