研究人员推出了一种新颖的优化算法 AngularMuown,它在 Muon 和 Muown 等矩阵感知优化器的原理基础上,隐式地执行角度步长衰减。该新方法显式优化归一化方向,并使用可调度的角度乘数,将其与径向幅度更新分离。初步结果显示 AngularMuown 的性能优于其前身 Muown,并且目前在 modded nanoGPT 速度运行竞赛中处于领先地位。在 Qwen2 模型上的实验表明,该算法能够有效地扩展到更大的参数数量。 AI
影响 引入了一种新颖的优化技术,可以加速 Transformer 模型训练并提高性能。
排序理由 该集群包含一篇详细介绍机器学习模型新优化算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →