English(EN) Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

新理论将数据缩放与预测贡献谱联系起来

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员提出了一个新的假设，认为机器学习中的数据缩放定律是由预测贡献谱的渐进覆盖驱动的，而不仅仅是由 token 频率尾部驱动的。他们开发了一种使用后缀自动机来表示文本语料库并定义数据内在全局 KL 预测贡献谱的方法。跨多个语料库的实证分析表明，该谱的尾部斜率与固定 GPT 学习器的数据缩放指数之间存在很强的相关性，这表明训练规模通过该谱推进了有效的前沿。 AI

影响提出了理解机器学习中数据缩放的新理论框架，可能指导未来的模型训练策略。

排序理由该集群包含一篇学术论文，详细介绍了与机器学习数据缩放相关的新假设和实证发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zihui Song, Shihao Ji, Hongxi Li, Shuaizhi Cheng, Chunlin Huang · 2026-05-22 04:00

数据缩放作为预测贡献谱的渐进式覆盖

arXiv:2605.20196v1 Announce Type: cross Abstract: We investigate the hypothesis that real-data scaling laws are governed by progressive coverage of a latent predictive contribution spectrum rather than by token-frequency tails alone. We work with a suffix-automaton representation…

报道来源 [1]

数据缩放作为预测贡献谱的渐进式覆盖

相关实体

相关话题