PulseAugur
实时 21:25:47
English(EN) Non-normal spectral signatures of instability in neural network training dynamics

新理论解释神经网络训练不稳定性

研究人员开发了一个新的理论框架,使用非厄米算子理论来解释和预测深度神经网络中的训练不稳定性。该研究指出,像Adam和带动量的SGD等常用优化器表现出非正态更新算子,这可能导致瞬态放大和损失尖峰。提出的伪谱前驱界限,使用kappa(V)作为指标,能有效区分稳定和不稳定训练阶段,在实验中优于传统的谱半径度量。 AI

影响 为理解和潜在缓解深度学习模型中常见的训练失败提供了一个新的理论视角。

排序理由 该集群包含一篇学术论文,详细介绍了理解神经网络训练动力学的新理论框架。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Souvik Ghosh ·

    神经网络训练动力学中不稳定性非正常谱特征

    arXiv:2605.23476v1 Announce Type: new Abstract: Training instabilities in deep networks - loss spikes, oscillatory convergence, and gradient pathologies - are empirically prevalent but lack a rigorous operator-theoretic explanation. We show that the linearized update operators fo…

  2. arXiv cs.LG TIER_1 English(EN) · Souvik Ghosh ·

    神经网络训练动力学中不稳定性非正常光谱特征

    Training instabilities in deep networks - loss spikes, oscillatory convergence, and gradient pathologies - are empirically prevalent but lack a rigorous operator-theoretic explanation. We show that the linearized update operators for practically used optimizers are generically no…