English(EN) Convergence Rate Analysis of the AdamW-Style Shampoo: Unifying One-sided and Two-Sided Preconditioning

AdamW风格Shampoo的收敛率分析：统一单边和双边预处理

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-04 04:00

一项名为“范数分离延迟定律”的新理论解释了“grokking”现象，即模型在记忆训练数据后仍能泛化。研究人员证明了grokking是由范数驱动的表征相变，并建立了延迟与权重衰减和学习率等因素之间的数学关系。这项工作将grokking重新定义为范数分离的可预测结果，并提供了一种预测grokking延迟的算法。 AI

影响为理解和预测模型泛化延迟提供了理论框架，可能实现更高效的训练。

排序理由该集群包含两篇arXiv论文，对机器学习优化算法和现象进行了理论分析。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Truong Xuan Khanh, Truong Quynh Hoa, Luu Duc Trung, Phan Thanh Duc · 2026-05-05 04:00

Grokking 的范式分离延迟定律：延迟泛化的第一性原理理论

arXiv:2603.13331v2 Announce Type: replace-cross Abstract: Grokking -- the sudden generalisation that appears long after a model has perfectly memorised its training data -- has been widely observed but lacks a quantitative theory explaining the length of the delay. We show that g…
arXiv cs.LG TIER_1 English(EN) · Huan Li, Yiming Dong, Zhouchen Lin · 2026-05-04 04:00

AdamW风格Shampoo的收敛率分析：统一单边和双边预条件

arXiv:2601.07326v2 Announce Type: replace-cross Abstract: This paper studies the AdamW-style Shampoo optimizer, an effective implementation of classical Shampoo that notably won the external tuning track of the AlgoPerf neural network training algorithm competition. Our analysis …

报道来源 [2]

Grokking 的范式分离延迟定律：延迟泛化的第一性原理理论

AdamW风格Shampoo的收敛率分析：统一单边和双边预条件

相关实体

相关话题