PulseAugur
实时 10:31:04
English(EN) Worker Disagreement Reveals Sharp Directions in Local SGD

本地 SGD 工人分歧揭示了深度神经网络损失几何结构

研究人员开发了一种新颖的方法来理解深度神经网络的损失几何结构,方法是通过分析本地随机梯度下降 (SGD) 中的工人分歧。这种分歧在理论上被证明会受到梯度噪声和 Hessian 曲率的影响,它提供了一种具有成本效益的、无 Hessian 的损失景观主子空间估计器。对 MLP、CNN 和 Transformer 的实验证实,通过工人平均差距识别出的子空间能够有效地捕捉 Hessian 特征值空间主导部分内的梯度分量。 AI

排序理由 这是一篇研究论文,详细介绍了一种分析深度神经网络损失几何结构的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

本地 SGD 工人分歧揭示了深度神经网络损失几何结构

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Tolga Dimlioglu, Kristi Topollai, Anna Choromanska ·

    工人分歧暴露本地SGD的尖锐方向

    arXiv:2605.27739v1 Announce Type: cross Abstract: Deep neural network training often exhibits highly anisotropic loss geometry, where a few sharp dominant Hessian directions coexist with a large flatter bulk. Gradients tend to align disproportionately with these dominant directio…