PulseAugur
实时 14:58:38
English(EN) Convergence Rate Analysis of the AdamW-Style Shampoo: Unifying One-sided and Two-Sided Preconditioning

AdamW风格Shampoo的收敛率分析:统一单边和双边预处理

一项名为“范数分离延迟定律”的新理论解释了“grokking”现象,即模型在记忆训练数据后仍能泛化。研究人员证明了grokking是由范数驱动的表征相变,并建立了延迟与权重衰减和学习率等因素之间的数学关系。这项工作将grokking重新定义为范数分离的可预测结果,并提供了一种预测grokking延迟的算法。 AI

影响 为理解和预测模型泛化延迟提供了理论框架,可能实现更高效的训练。

排序理由 该集群包含两篇arXiv论文,对机器学习优化算法和现象进行了理论分析。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

AdamW风格Shampoo的收敛率分析:统一单边和双边预处理

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Truong Xuan Khanh, Truong Quynh Hoa, Luu Duc Trung, Phan Thanh Duc ·

    Grokking 的范式分离延迟定律:延迟泛化的第一性原理理论

    arXiv:2603.13331v2 Announce Type: replace-cross Abstract: Grokking -- the sudden generalisation that appears long after a model has perfectly memorised its training data -- has been widely observed but lacks a quantitative theory explaining the length of the delay. We show that g…

  2. arXiv cs.LG TIER_1 English(EN) · Huan Li, Yiming Dong, Zhouchen Lin ·

    AdamW风格Shampoo的收敛率分析:统一单边和双边预条件

    arXiv:2601.07326v2 Announce Type: replace-cross Abstract: This paper studies the AdamW-style Shampoo optimizer, an effective implementation of classical Shampoo that notably won the external tuning track of the AlgoPerf neural network training algorithm competition. Our analysis …