PulseAugur
实时 09:05:40
English(EN) On the Superlinear Relationship between SGD Noise Covariance and Loss Landscape Curvature

新研究揭示SGD噪声协方差与损失景观曲率的联系

研究人员发现了随机梯度下降(SGD)引入的噪声与深度学习模型中损失景观曲率之间的新关系。他们的研究结果表明,在特定条件下,这种噪声并非像先前假设的那样与损失的Hessian矩阵成正比。相反,该研究揭示了一种更普遍的联系,其中SGD噪声协方差与每样本Hessian矩阵的期望值相关,这表明这两个因素近似地交换而不是重合。 AI

影响 为SGD噪声及其与损失景观曲率的相互作用提供了更准确的理论理解,可能指导未来的优化算法开发。

排序理由 这是一篇详细介绍机器学习优化主题的理论发现和实验验证的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yikuan Zhang, Ning Yang, Yuhai Tu ·

    SGD噪声协方差与损失景观曲率之间的超线性关系

    arXiv:2602.05600v2 Announce Type: replace Abstract: Stochastic Gradient Descent (SGD) introduces anisotropic noise that is correlated with the local curvature of the loss landscape, thereby biasing optimization toward flat minima. Prior work often assumes an equivalence between t…