研究人员开发了 Decoupled DiLoCo,一种新的分布式预训练框架,旨在提高大规模语言模型训练的弹性和效率。该方法超越了传统的 SPMD 范式,允许多个独立的“学习者”异步执行本地优化步骤。中央同步器然后使用最小法定人数和动态令牌加权合并来聚合参数更新,从而有效地绕过失败或缓慢的学习者,并消除全局停机时间。 AI
影响 引入了一种更具弹性和效率的分布式训练方法,有可能减少大规模模型预训练的计算浪费和停机时间。
排序理由 这是一篇描述新的分布式训练框架的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →