PulseAugur
实时 10:42:11
English(EN) Internal Data Repetition Destroys Language Models

研究发现数据重复严重损害语言模型性能

一篇新发表在arXiv上的研究论文探讨了数据重复对语言模型的有害影响,尤其是在Chinchilla缩放定律时代。该研究量化了与重复相关的“计算等效增益”和“计算等效损失”,揭示了性能在中间重复次数时达到峰值。这种有害的重复次数随模型大小而扩展,表明随着模型增大,最佳重复次数的增长速度快于计算量。研究表明,即使10%的重复文档预算也会导致显著的性能下降,对于一个3.44亿参数的模型而言,相当于在无重复场景下使用了少67%的计算量。这些发现得到了具有逐字重复的错误指定线性回归统计模型支持,突显了记忆与泛化之间的权衡。 AI

影响 量化了由于数据重复导致的大语言模型训练中计算资源的浪费,指导更好的数据策展实践。

排序理由 学术论文,详细介绍语言模型训练数据的研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究发现数据重复严重损害语言模型性能

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Jessica Chudnovsky, Joshua Kazdan, Noam Levi, Rylan Schaeffer, Yegor Denisov-Blanch, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho ·

    Internal Data Repetition Destroys Language Models

    arXiv:2606.24998v1 Announce Type: new Abstract: Language models are running out of high-quality training data, and even aggressively deduplicated corpora retain some amount of repetition. Earlier controlled studies predated Chinchilla-style scaling laws and could only measure the…