English(EN) Repetition Mismatch: Why Data Mixture Experiments Don't Scale and How to Fix Them

AI训练数据混合实验遭受重复不匹配问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员发现了一个在扩展AI模型训练数据混合时出现的关键问题，称为“重复不匹配”。当随着训练预算的增加，由于高质量、有限数据集的不同重复率而导致最佳数据混合发生变化时，就会出现这种情况。一种新的子采样程序，可以匹配目标重复率，能够通过显著较小的实验准确预测最佳混合，从而提高效率和准确性。 AI

影响通过解决数据混合扩展问题，提高了训练大型AI模型的效率和准确性。

排序理由这是一篇详细介绍优化AI训练数据混合的新方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Kevin Zhou, Lisa Alazraki, Kris Cao, Marek Rei · 2026-06-09 04:00

重复不匹配：为何数据混合实验无法扩展以及如何修复它们

arXiv:2606.07597v1 Announce Type: cross Abstract: Pre-training data mixtures are commonly tuned by running small-scale experiments and extrapolating to the target training budget. When high-quality data is scarce and must be repeated, this extrapolation frequently fails, but the …