English(EN) Adaptive Preconditioners Trigger Loss Spikes in Adam

Adam 优化器的损失尖峰与其内部动态相关

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员已经确定了使用 Adam 优化器进行神经网络训练时频繁发生的损失尖峰背后的关键机制。他们的分析表明，这些尖峰并非完全由景观几何引起，而是源于 Adam 二阶矩估计器的内部动态。具体来说，自适应预处理器与瞬时平方梯度之间的解耦导致预处理器自主衰减，从而引起不稳定性和剧烈的损失增加。 AI

影响确定了训练不稳定的根本原因，可能导致更鲁棒的大规模模型优化方法。

排序理由学术论文，详细介绍了常见神经网络训练现象的新机制。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Zhiwei Bai, Zhangchen Zhou, Jiajie Zhao, Xiaolong Li, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Yaoyu Zhang, Zhi-Qin John Xu · 2026-05-26 04:00

自适应预条件器在Adam中引发损失尖峰

arXiv:2506.04805v2 Announce Type: replace Abstract: Loss spikes commonly emerge during neural network training with the Adam optimizer across diverse architectures and scales, yet their underlying mechanism remains elusive. While previous explanations attribute these phenomena to…