研究人员开发了一个新的理论框架,使用非厄米算子理论来解释和预测深度神经网络中的训练不稳定性。该研究指出,像Adam和带动量的SGD等常用优化器表现出非正态更新算子,这可能导致瞬态放大和损失尖峰。提出的伪谱前驱界限,使用kappa(V)作为指标,能有效区分稳定和不稳定训练阶段,在实验中优于传统的谱半径度量。 AI
影响 为理解和潜在缓解深度学习模型中常见的训练失败提供了一个新的理论视角。
排序理由 该集群包含一篇学术论文,详细介绍了理解神经网络训练动力学的新理论框架。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →