一篇新研究论文引入了“基底旋转”方法,以解决大规模分布式训练中异步流水线并行中的梯度陈旧性问题。作者发现,Hessian 特征基底与标准坐标基底之间的基底不对齐会加剧延迟更新的负面影响,特别是对于自适应优化器。他们提出的基底旋转框架将优化器的坐标系与 Hessian 特征基底对齐,理论和实验均表明能显著减少训练迭代次数。在训练一个 3B 参数大模型的实验中,与现有的异步基线方法相比,该方法将迭代次数减少了 81.7%。 AI
影响 将大模型训练迭代次数最多减少 81.7%,可能降低计算成本并加速模型开发。
排序理由 学术论文,详细介绍了一种优化分布式 LLM 训练的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →