一篇近期论文提出了一个开放性问题,关于 AdamW 优化器在重尾噪声条件下训练大型语言模型 (LLM) 的有效性。尽管 AdamW 被广泛使用,但其理论理解仅限于有限方差场景,尽管有经验证据表明重尾噪声在 LLM 预训练中很常见。该论文探讨了 AdamW 在此环境下是否能够收敛,并将其与其他在重尾噪声下显示出收敛性的优化器(如 Lion 和 Muon)进行了对比,同时提供了一个加权指标基准和一个下界机制。 AI
影响 阐明了一个广泛使用的 LLM 训练优化器的理论局限性,可能指导未来对更鲁棒方法的研究。
排序理由 该集群包含一篇详细介绍机器学习优化领域开放性问题的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →