研究人员推出了一种新颖的去中心化图矩阵优化方法 DeMuon。该方法通过牛顿-舒尔茨迭代整合矩阵正交化,并利用梯度跟踪处理局部函数异质性,从而扩展了中心化 Muon 算法。DeMuon 即使在重尾噪声下也能实现与中心化算法相当的迭代复杂度,并被认为是 Muon 首次直接扩展到具有理论保证的去中心化图优化。初步实验表明,DeMuon 在各种网络拓扑的 Transformer 预训练任务中优于其他去中心化算法。 AI
影响 引入了一种新的去中心化优化方法,有望提高分布式人工智能训练的效率。
排序理由 该集群包含一篇详细介绍具有理论保证和初步实验结果的新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →