English(EN) Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning

Muon^2 优化器提升基础模型训练效率

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-09 04:00

研究人员开发了 Muon$^2$，这是 Muon 优化器的一个增强版本，专为大规模基础模型预训练而设计。Muon$^2$ 在正交化之前加入类 Adam 的自适应二阶矩预处理，从而提高了效率和质量，解决了 Muon 迭代正交化过程相关的计算成本问题。使用多达 130 亿参数的 GPT、LLaMA 和专家混合（Mixture-of-Experts）模型进行的实验表明，与 Muon 相比，Muon$^2$ 将牛顿-舒尔茨（Newton-Schulz）迭代次数减少了 40%，并可节省高达四分之一的训练时间，同时达到相似的损失。 AI

影响 Muon^2 为大型基础模型提供了更高效的训练过程，有望降低计算成本并加速开发周期。

排序理由该集群包含两篇学术论文，详细介绍了大规模模型训练优化算法的进展。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Ziyue Liu, Ruijie Zhang, Zhengyang Wang, Yequan Zhao, Yupeng Su, Zi Yang, Zheng Zhang · 2026-06-09 04:00

Muon$^2$：通过自适应二阶矩预处理提升 Muon

arXiv:2604.09967v2 Announce Type: replace-cross Abstract: Muon has emerged as a promising optimizer for large-scale foundation model pre-training by exploiting the matrix structure of neural network updates through iterative orthogonalization. However, the orthogonalization quali…
arXiv cs.LG TIER_1 English(EN) · Naoki Sato, Hiroki Naganuma, Hideaki Iiduka · 2026-06-09 04:00

Muon Optimizer 的收敛界和临界批次大小

arXiv:2507.01598v5 Announce Type: replace Abstract: Muon, a recently proposed optimizer that leverages the inherent matrix structure of neural network parameters, has demonstrated strong empirical performance, indicating its potential as a successor to standard optimizers such as…

报道来源 [2]

Muon$^2$：通过自适应二阶矩预处理提升 Muon

Muon Optimizer 的收敛界和临界批次大小

相关实体

相关话题