PulseAugur
实时 19:04:59
English(EN) LionMuon: Alternating Spectral and Sign Descent for Efficient Training

LionMuon 优化器降低大型模型训练成本

研究人员推出 LionMuon,这是一种新颖的优化算法,旨在高效训练大规模模型。该方法在 Lion 的低成本更新和 Muon 的更强但成本更高的谱更新之间交替进行。通过共享单个动量缓冲区,LionMuon 在保持有效性的同时显著降低了平均迭代成本。实验表明,LionMuon 在各种模型大小和数据集上均优于 Muon、Lion、SignumAdamW 等现有优化器,以更少的计算量实现了更低的验证损失。 AI

影响 引入了一种新的优化技术,可以显著降低训练大型人工智能模型的计算成本。

排序理由 该集群包含一篇详细介绍机器学习新颖优化算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LionMuon 优化器降低大型模型训练成本

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Aleksandr Beznosikov ·

    LionMuon: Alternating Spectral and Sign Descent for Efficient Training

    In large-scale optimization, the cheapness and effectiveness of update steps are the most crucial factors for a successful optimizer. Sign-based optimizers like Lion or Signum produce cheap per-step updates, whereas Muon's spectral matrix-sign update gives a much stronger directi…