一篇新发表在arXiv上的研究论文探讨了数据重复对语言模型的有害影响,尤其是在Chinchilla缩放定律时代。该研究量化了与重复相关的“计算等效增益”和“计算等效损失”,揭示了性能在中间重复次数时达到峰值。这种有害的重复次数随模型大小而扩展,表明随着模型增大,最佳重复次数的增长速度快于计算量。研究表明,即使10%的重复文档预算也会导致显著的性能下降,对于一个3.44亿参数的模型而言,相当于在无重复场景下使用了少67%的计算量。这些发现得到了具有逐字重复的错误指定线性回归统计模型支持,突显了记忆与泛化之间的权衡。 AI
影响 量化了由于数据重复导致的大语言模型训练中计算资源的浪费,指导更好的数据策展实践。
排序理由 学术论文,详细介绍语言模型训练数据的研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →