研究人员开发了一种新颖的方法来理解深度神经网络的损失几何结构,方法是通过分析本地随机梯度下降 (SGD) 中的工人分歧。这种分歧在理论上被证明会受到梯度噪声和 Hessian 曲率的影响,它提供了一种具有成本效益的、无 Hessian 的损失景观主子空间估计器。对 MLP、CNN 和 Transformer 的实验证实,通过工人平均差距识别出的子空间能够有效地捕捉 Hessian 特征值空间主导部分内的梯度分量。 AI
排序理由 这是一篇研究论文,详细介绍了一种分析深度神经网络损失几何结构的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →