English(EN) Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks

新理论通过 L2 相变解释深度神经网络中的领悟现象

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:00

研究人员开发了一种新理论，解释了深度神经网络中“领悟”（grokking）现象，即模型在过拟合一段时间后突然开始泛化。这项发表在 arXiv 上的研究提出，领悟与一阶 L2 相变中的滞后现象有关。通过故意将模型困在亚稳态，研究人员证明了 SGD 噪声可以驱动它们越过能量壁垒，从而产生遵循阿伦尼乌斯缩放的逃逸时间，进而重现了领悟曲线。 AI

影响为理解和潜在地改进深度学习模型的泛化能力提供了理论框架。

排序理由发表在 arXiv 上的学术论文，详细阐述了对深度学习中某一现象的新理论解释。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Ibrahim Talha Ersoy, Karoline Wiesner · 2026-06-17 04:00

Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks

arXiv:2606.17120v1 Announce Type: new Abstract: Deep neural networks (DNNs) exhibit first order phase transitions under variations of the L2 regularization strength, with each transition marking the onset of a new learnable feature. Below a critical regularization strength, all f…

报道来源 [1]

Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks

相关实体

相关话题