研究人员引入了一个名为Muon的新框架,通过谱归一化来稳定深度学习优化,特别是针对矩阵形状的参数。这项工作在均值场条件下理想化了连续时间、动量衰减的训练动力学,将宽模型表示为参数空间上的概率测度。该研究定义了谱Wasserstein距离,并开发了静态Kantorovich和Benamou--Brenier公式,为归一化训练动力学提供了梯度流解释。 AI
影响 引入了一个新颖的数学框架来稳定深度学习优化,可能改善宽模型的训练动力学。
排序理由 该集群包含一篇学术论文,详细介绍了用于深度学习优化的新数学框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →