PulseAugur
实时 13:38:52
English(EN) The Spectral Dynamics and Noise Geometry of Muon

新的“μ子”优化技术使矩阵梯度趋于平缓

一篇新研究论文介绍了一种名为“μ子”(Muon)的优化技术,该技术用极向因子取代矩阵梯度。此方法保持了奇异方向,但使更新谱趋于平缓,作者认为这在某些训练模式下可能是有益的。实验表明,与AdamW相比,μ子可以在小规模NanoGPT预训练中改善验证损失,尽管其有效性取决于具体的训练模式。 AI

影响 这种新的优化方法可能为AdamW等标准优化器提供一种替代方案,有可能在特定的模型架构中提高训练稳定性和性能。

排序理由 该集群包含一篇详细介绍机器学习模型新优化技术的学术论文。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv stat.ML TIER_1 English(EN) · Pierfrancesco Beneventano, Mahmoud Abdelmoneum, Tomaso Poggio ·

    μ子的谱动力学与噪声几何

    arXiv:2606.08388v1 Announce Type: cross Abstract: Muon replaces a matrix gradient $G=U\Sigma V^\top$ by its polar factor $UV^\top$. This keeps the singular directions selected by the gradient, but makes the update spectrum flat. We study the optimization bias created by this oper…

  2. arXiv stat.ML TIER_1 English(EN) · Tomaso Poggio ·

    μ子的谱动力学与噪声几何

    Muon replaces a matrix gradient $G=UΣV^\top$ by its polar factor $UV^\top$. This keeps the singular directions selected by the gradient, but makes the update spectrum flat. We study the optimization bias created by this operation. Under explicit alignment assumptions, we prove th…