PulseAugur
实时 08:58:22
English(EN) Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning

Muon^2 优化器提升基础模型训练效率

研究人员开发了 Muon$^2$,这是 Muon 优化器的一个增强版本,专为大规模基础模型预训练而设计。Muon$^2$ 在正交化之前加入类 Adam 的自适应二阶矩预处理,从而提高了效率和质量,解决了 Muon 迭代正交化过程相关的计算成本问题。使用多达 130 亿参数的 GPTLLaMA 和专家混合(Mixture-of-Experts)模型进行的实验表明,与 Muon 相比,Muon$^2$ 将牛顿-舒尔茨(Newton-Schulz)迭代次数减少了 40%,并可节省高达四分之一的训练时间,同时达到相似的损失。 AI

影响 Muon^2 为大型基础模型提供了更高效的训练过程,有望降低计算成本并加速开发周期。

排序理由 该集群包含两篇学术论文,详细介绍了大规模模型训练优化算法的进展。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Ziyue Liu, Ruijie Zhang, Zhengyang Wang, Yequan Zhao, Yupeng Su, Zi Yang, Zheng Zhang ·

    Muon$^2$:通过自适应二阶矩预处理提升 Muon

    arXiv:2604.09967v2 Announce Type: replace-cross Abstract: Muon has emerged as a promising optimizer for large-scale foundation model pre-training by exploiting the matrix structure of neural network updates through iterative orthogonalization. However, the orthogonalization quali…

  2. arXiv cs.LG TIER_1 English(EN) · Naoki Sato, Hiroki Naganuma, Hideaki Iiduka ·

    Muon Optimizer 的收敛界和临界批次大小

    arXiv:2507.01598v5 Announce Type: replace Abstract: Muon, a recently proposed optimizer that leverages the inherent matrix structure of neural network parameters, has demonstrated strong empirical performance, indicating its potential as a successor to standard optimizers such as…