English(EN) On the Convergence Behavior of Preconditioned Gradient Descent Toward the Rich Learning Regime

论文探讨预条件梯度下降对神经网络学习机制的影响

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

本文研究了预条件梯度下降（PGD）方法（如高斯-牛顿法）如何影响谱偏差和神经网络中的“grokking”现象。研究人员提出，PGD可以减轻谱偏差，这种偏差通常导致网络首先学习低频特征，从而可能阻碍捕捉精细结构。研究表明，PGD还可以减少与“grokking”相关的延迟，这是一种假说认为在从神经切线核（NTK）过渡到丰富特征学习机制的过程中出现的延迟泛化效应。实验结果支持“grokking”代表这种过渡行为的观点，PGD能够实现参数空间更均匀的探索。 AI

影响加深了对神经网络训练动力学的理解，有望为复杂任务带来更高效的学习算法。

排序理由关于预条件梯度下降对神经网络收敛行为的理论和经验结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Shuai Jiang, Alexey Voronin, Eric Cyr, Ben Southworth · 2026-05-08 04:00

预条件梯度下降收敛到丰富学习范式的行为研究

arXiv:2601.03162v2 Announce Type: replace Abstract: Spectral bias, the tendency of neural networks to learn low frequencies first, can be both a blessing and a curse. While it enhances the generalization capabilities by suppressing high-frequency noise, it can be a limitation in …

报道来源 [1]

预条件梯度下降收敛到丰富学习范式的行为研究

相关实体

相关话题