研究人员引入了一个名为“边缘耦合”(edge coupling)的新概念,以解释神经网络训练中已知的“Edge of Stability”现象。这个函数应用于连续的迭代对,有助于解释在全批量梯度下降过程中,最大的 Hessian 特征值为何会达到 $2/\eta$(其中 $\eta$ 是学习率)的阈值。所提出的方法在没有任何间隙的情况下精确地强制 Hessian 特征值,为这种观察到的行为提供了更统一的解释。 AI
影响 提供了一个理论框架,可能带来更稳定、更高效的神经网络训练。
排序理由 学术论文,详细阐述了对神经网络训练中某一现象的新理论解释。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →