深度学习的扩展定律：计算和数据增加可预测的损失减少

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 00:00

深度学习中的扩展定律描述了一种可预测的关系，即随着模型大小、数据集大小和计算能力的增加，训练损失遵循幂律曲线减小。这种可预测性对于估算更大模型的资源需求非常有价值。20世纪90年代和2017年的早期研究探索了学习曲线和泛化误差，发现损失与数据大小和模型参数成比例地缩放。最近的工作将误差建模为模型和数据大小的联合函数，证实了沿每个轴的幂律衰减。 AI

影响理解扩展定律对于优化大型AI模型的训练资源分配至关重要，有望带来更高效的开发周期。

排序理由该条目是一篇博文，详细介绍了深度学习扩展定律的研究结果，并引用了学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Lil'Log (Lilian Weng) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Lil'Log (Lilian Weng) TIER_1 English(EN) · 2026-06-24 00:00

Scaling Laws, Carefully

<p>Scaling laws are one of the most critical empirical findings in deep learning. The observation is simple in form: the training loss $L$ decreases predictably as we scale up model size $N$, dataset size $D$, and compute $C$, following a power-law curve, which appears as a strai…

报道来源 [1]

Scaling Laws, Carefully

相关实体

相关话题