English(EN) MuLoCo: Muon is a practical inner optimizer for DiLoCo

MuLoCo 框架使用 Muon 优化器增强 LLM 训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员推出 MuLoCo，一个旨在优化 DiLoCo 系统内大型语言模型 (LLM) 训练的新框架。MuLoCo 通过关注内部优化器的作用，解决了随着工作节点数量增加而观察到的 DiLoCo 性能下降问题。实验表明，与标准的 DiLoCo 和数据并行方法相比，使用 Muon 优化器的 MuLoCo 在各种规模下都能产生改进的伪梯度质量和卓越的模型训练性能。 AI

影响引入了一种新颖的优化技术，可以提高大型语言模型训练的效率和可扩展性。

排序理由这是一篇详细介绍 LLM 新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Benjamin Th\'erien, Xiaolong Huang, Aaron Defazio, Irina Rish, Eugene Belilovsky · 2026-06-03 04:00

MuLoCo：Muon是DiLoCo的实用内部优化器

arXiv:2505.23725v3 Announce Type: replace Abstract: DiLoCo is a powerful framework for training large language models (LLMs), enabling larger optimal batch sizes and increased accelerator utilization under networking constraints. However, DiLoCo's performance has been shown to de…

报道来源 [1]

MuLoCo：Muon是DiLoCo的实用内部优化器

相关实体

相关话题