本文研究了预条件梯度下降(PGD)方法(如高斯-牛顿法)如何影响谱偏差和神经网络中的“grokking”现象。研究人员提出,PGD可以减轻谱偏差,这种偏差通常导致网络首先学习低频特征,从而可能阻碍捕捉精细结构。研究表明,PGD还可以减少与“grokking”相关的延迟,这是一种假说认为在从神经切线核(NTK)过渡到丰富特征学习机制的过程中出现的延迟泛化效应。实验结果支持“grokking”代表这种过渡行为的观点,PGD能够实现参数空间更均匀的探索。 AI
影响 加深了对神经网络训练动力学的理解,有望为复杂任务带来更高效的学习算法。
排序理由 关于预条件梯度下降对神经网络收敛行为的理论和经验结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →