PulseAugur
实时 13:57:52
English(EN) How Much Orthogonalization Does Muon Need?

Muon 优化器所需的正交化程度低于预期

研究人员调查了 Muon 优化器所需的最佳正交化水平,这是一种通过改进动量更新来增强神经网络训练的技术。他们的研究利用简化的立方牛顿-舒尔茨计划来探索极坐标精度、频谱整形和训练性能之间的关系。研究结果表明,训练质量与极坐标分解精度并不严格相关,因为在 GPT-2 Small 上,各种方法实现了几乎相同的最终损失,而在更大的 MoE/Mamba 模型上,验证损失也相当。 AI

影响 提出了一种更有效的神经网络训练方法,可能降低计算成本。

排序理由 这是一篇详细介绍一种新的神经网络训练优化方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Hua Huang ·

    How Much Orthogonalization Does Muon Need?

    arXiv:2606.00371v1 Announce Type: new Abstract: Muon optimizers improve neural-network training by replacing ill-conditioned momentum updates with approximately semi-orthogonal updates. This motivates a practical question: how much orthogonalization does Muon actually require? We…