English(EN) Why Do We Need Warm-up? A Theoretical Perspective

新理论解释深度学习中学习率预热的好处

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

提出了一种关于深度学习中学习率预热的新理论视角，解释了其在改善训练方面的有效性。研究人员将 $(L_0, L_1)$-平滑条件推广，以基于损失次优性来约束局部曲率。该条件被常见的神经网络架构所满足，并能准确反映训练初期的优化景观。根据这种曲率调整学习率自然会导致预热计划，与固定学习率相比，可证明收敛速度更快，这在语言和视觉模型的实验中得到了证明。 AI

影响为一种常见的深度学习启发式方法提供了理论基础，可能带来更鲁棒、更高效的训练实践。

排序理由该条目是一篇在arXiv上发表的研究论文，详细介绍了机器学习优化技术的理论和实证发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Foivos Alimisis, Rustem Islamov, Aurelien Lucchi · 2026-06-30 04:00

为什么我们需要预热？理论视角

arXiv:2510.03164v2 Announce Type: replace-cross Abstract: Learning rate warm-up -- increasing the learning rate at the beginning of training -- has become a ubiquitous heuristic in modern deep learning, yet its theoretical foundations remain poorly understood. In this work, we pr…

报道来源 [1]

为什么我们需要预热？理论视角

相关实体

相关话题