PulseAugur
实时 10:49:11
English(EN) MuLoCo: Muon is a practical inner optimizer for DiLoCo

MuLoCo 框架使用 Muon 优化器增强 LLM 训练

研究人员推出 MuLoCo,一个旨在优化 DiLoCo 系统内大型语言模型 (LLM) 训练的新框架。MuLoCo 通过关注内部优化器的作用,解决了随着工作节点数量增加而观察到的 DiLoCo 性能下降问题。实验表明,与标准的 DiLoCo 和数据并行方法相比,使用 Muon 优化器的 MuLoCo 在各种规模下都能产生改进的伪梯度质量和卓越的模型训练性能。 AI

影响 引入了一种新颖的优化技术,可以提高大型语言模型训练的效率和可扩展性。

排序理由 这是一篇详细介绍 LLM 新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Benjamin Th\'erien, Xiaolong Huang, Aaron Defazio, Irina Rish, Eugene Belilovsky ·

    MuLoCo:Muon是DiLoCo的实用内部优化器

    arXiv:2505.23725v3 Announce Type: replace Abstract: DiLoCo is a powerful framework for training large language models (LLMs), enabling larger optimal batch sizes and increased accelerator utilization under networking constraints. However, DiLoCo's performance has been shown to de…