PulseAugur
实时 02:20:21

Muon框架为深度学习提供新的谱Wasserstein距离

研究人员引入了一个名为Muon的新框架,通过谱归一化来稳定深度学习优化,特别是针对矩阵形状的参数。这项工作在均值场条件下理想化了连续时间、动量衰减的训练动力学,将宽模型表示为参数空间上的概率测度。该研究定义了谱Wasserstein距离,并开发了静态Kantorovich和Benamou--Brenier公式,为归一化训练动力学提供了梯度流解释。 AI

影响 引入了一个新颖的数学框架来稳定深度学习优化,可能改善宽模型的训练动力学。

排序理由 该集群包含一篇学术论文,详细介绍了用于深度学习优化的新数学框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Muon框架为深度学习提供新的谱Wasserstein距离

报道来源 [1]

  1. arXiv stat.ML TIER_1 English(EN) · Gabriel Peyr\'e ·

    Muon Dynamics as a Spectral Wasserstein Flow

    arXiv:2604.04891v2 Announce Type: replace-cross Abstract: Gradient normalization stabilizes deep-learning optimization, and spectral normalizations are especially natural for matrix-shaped parameter blocks; Muon is the motivating example. We study an idealized deterministic, cont…