通过范数最小化解释神经网络的领悟

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员提出了一个新框架来理解神经网络中的“领悟”（grokking）现象，即泛化发生在训练数据记忆之后。他们的工作表明，这种延迟学习可以通过梯度下降在零损失流形上最小化权重范数来解释。该研究在特定条件下包含此动态的正式证明，并引入了一个近似方法来解耦参数学习，从而得到早期层动态的闭式表达式。实验结果验证了这些预测，重现了领悟特有的延迟泛化和表示学习。 AI

影响为神经网络中的延迟泛化提供了理论解释，可能指导未来的模型训练策略。

排序理由这是一篇详细介绍神经网络现象的理论框架和实验验证的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Tiberiu Musat · 2026-06-02 04:00

The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold

arXiv:2511.01938v3 Announce Type: replace-cross Abstract: Grokking is a puzzling phenomenon in neural networks where full generalization occurs only after a substantial delay following the complete memorization of the training data. Previous research has linked this delayed gener…

报道来源 [1]

The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold

相关实体

相关话题