PulseAugur
实时 01:30:01
English(EN) Why Do We Need Warm-up? A Theoretical Perspective

新理论解释深度学习中学习率预热的好处

提出了一种关于深度学习中学习率预热的新理论视角,解释了其在改善训练方面的有效性。研究人员将 $(L_0, L_1)$-平滑条件推广,以基于损失次优性来约束局部曲率。该条件被常见的神经网络架构所满足,并能准确反映训练初期的优化景观。根据这种曲率调整学习率自然会导致预热计划,与固定学习率相比,可证明收敛速度更快,这在语言和视觉模型的实验中得到了证明。 AI

影响 为一种常见的深度学习启发式方法提供了理论基础,可能带来更鲁棒、更高效的训练实践。

排序理由 该条目是一篇在arXiv上发表的研究论文,详细介绍了机器学习优化技术的理论和实证发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新理论解释深度学习中学习率预热的好处

报道来源 [1]

  1. arXiv stat.ML TIER_1 English(EN) · Foivos Alimisis, Rustem Islamov, Aurelien Lucchi ·

    为什么我们需要预热?理论视角

    arXiv:2510.03164v2 Announce Type: replace-cross Abstract: Learning rate warm-up -- increasing the learning rate at the beginning of training -- has become a ubiquitous heuristic in modern deep learning, yet its theoretical foundations remain poorly understood. In this work, we pr…