研究人员开发了一种新理论,解释了深度神经网络中“领悟”(grokking)现象,即模型在过拟合一段时间后突然开始泛化。这项发表在 arXiv 上的研究提出,领悟与一阶 L2 相变中的滞后现象有关。通过故意将模型困在亚稳态,研究人员证明了 SGD 噪声可以驱动它们越过能量壁垒,从而产生遵循阿伦尼乌斯缩放的逃逸时间,进而重现了领悟曲线。 AI
影响 为理解和潜在地改进深度学习模型的泛化能力提供了理论框架。
排序理由 发表在 arXiv 上的学术论文,详细阐述了对深度学习中某一现象的新理论解释。[lever_c_demoted from research: ic=1 ai=1.0]
- Arrhenius scaling
- arXiv
- Deep Neural Networks
- grokking
- Hugging Face
- Ibrahim Talha Ersoy
- L2 regularization
- SGD
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →