PulseAugur
实时 14:30:43
English(EN) Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks

新理论通过 L2 相变解释深度神经网络中的领悟现象

研究人员开发了一种新理论,解释了深度神经网络中“领悟”(grokking)现象,即模型在过拟合一段时间后突然开始泛化。这项发表在 arXiv 上的研究提出,领悟与一阶 L2 相变中的滞后现象有关。通过故意将模型困在亚稳态,研究人员证明了 SGD 噪声可以驱动它们越过能量壁垒,从而产生遵循阿伦尼乌斯缩放的逃逸时间,进而重现了领悟曲线。 AI

影响 为理解和潜在地改进深度学习模型的泛化能力提供了理论框架。

排序理由 发表在 arXiv 上的学术论文,详细阐述了对深度学习中某一现象的新理论解释。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Ibrahim Talha Ersoy, Karoline Wiesner ·

    Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks

    arXiv:2606.17120v1 Announce Type: new Abstract: Deep neural networks (DNNs) exhibit first order phase transitions under variations of the L2 regularization strength, with each transition marking the onset of a new learnable feature. Below a critical regularization strength, all f…