研究人员引入了一种名为外动量重启动(Outer-Momentum Restarting)的新技术,以提高机器学习中使用的分布式优化器的效率。该方法涉及周期性地重置DiLoCo等优化器中的外动量,通过允许工作节点在聚合之前执行大量本地更新来降低同步成本。该技术有助于丢弃过时的动量同时保留进展,从而在语言模型预训练中为学习率和动量值提供更宽的稳定范围。 AI
影响 这项研究通过减少分布式系统中的通信开销,可能导致更高效的大型语言模型训练。
排序理由 该集群包含一篇详细介绍机器学习新优化技术的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →