研究人员开发了 Muon$^2$,这是 Muon 优化器的一个增强版本,专为大规模基础模型预训练而设计。Muon$^2$ 在正交化之前加入类 Adam 的自适应二阶矩预处理,从而提高了效率和质量,解决了 Muon 迭代正交化过程相关的计算成本问题。使用多达 130 亿参数的 GPT、LLaMA 和专家混合(Mixture-of-Experts)模型进行的实验表明,与 Muon 相比,Muon$^2$ 将牛顿-舒尔茨(Newton-Schulz)迭代次数减少了 40%,并可节省高达四分之一的训练时间,同时达到相似的损失。 AI
影响 Muon^2 为大型基础模型提供了更高效的训练过程,有望降低计算成本并加速开发周期。
排序理由 该集群包含两篇学术论文,详细介绍了大规模模型训练优化算法的进展。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →