PulseAugur
实时 11:31:56
English(EN) Muown Implicitly Performs Angular Step-size Decay

新的 AngularMuown 优化器改进 Transformer 预训练

研究人员推出了一种新颖的优化算法 AngularMuown,它在 MuonMuown 等矩阵感知优化器的原理基础上,隐式地执行角度步长衰减。该新方法显式优化归一化方向,并使用可调度的角度乘数,将其与径向幅度更新分离。初步结果显示 AngularMuown 的性能优于其前身 Muown,并且目前在 modded nanoGPT 速度运行竞赛中处于领先地位。在 Qwen2 模型上的实验表明,该算法能够有效地扩展到更大的参数数量。 AI

影响 引入了一种新颖的优化技术,可以加速 Transformer 模型训练并提高性能。

排序理由 该集群包含一篇详细介绍机器学习模型新优化算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 AngularMuown 优化器改进 Transformer 预训练

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Niao He ·

    Muown Implicitly Performs Angular Step-size Decay

    Matrix-aware optimizers such as Muon and Muown have recently shown strong empirical performance for pre-training Transformers. In particular, Muown separates each weight matrix into row magnitudes and an un-normalized direction variable, updating the former with Adam and the latt…