研究人员已经确定了使用 Adam 优化器进行神经网络训练时频繁发生的损失尖峰背后的关键机制。他们的分析表明,这些尖峰并非完全由景观几何引起,而是源于 Adam 二阶矩估计器的内部动态。具体来说,自适应预处理器与瞬时平方梯度之间的解耦导致预处理器自主衰减,从而引起不稳定性和剧烈的损失增加。 AI
影响 确定了训练不稳定的根本原因,可能导致更鲁棒的大规模模型优化方法。
排序理由 学术论文,详细介绍了常见神经网络训练现象的新机制。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →