PulseAugur
实时 10:07:24
English(EN) Adaptive Preconditioners Trigger Loss Spikes in Adam

Adam 优化器的损失尖峰与其内部动态相关

研究人员已经确定了使用 Adam 优化器进行神经网络训练时频繁发生的损失尖峰背后的关键机制。他们的分析表明,这些尖峰并非完全由景观几何引起,而是源于 Adam 二阶矩估计器的内部动态。具体来说,自适应预处理器与瞬时平方梯度之间的解耦导致预处理器自主衰减,从而引起不稳定性和剧烈的损失增加。 AI

影响 确定了训练不稳定的根本原因,可能导致更鲁棒的大规模模型优化方法。

排序理由 学术论文,详细介绍了常见神经网络训练现象的新机制。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Zhiwei Bai, Zhangchen Zhou, Jiajie Zhao, Xiaolong Li, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Yaoyu Zhang, Zhi-Qin John Xu ·

    自适应预条件器在Adam中引发损失尖峰

    arXiv:2506.04805v2 Announce Type: replace Abstract: Loss spikes commonly emerge during neural network training with the Adam optimizer across diverse architectures and scales, yet their underlying mechanism remains elusive. While previous explanations attribute these phenomena to…