研究人员分析了随机谱优化器,包括 Muon,在一个高维矩阵值最小二乘问题中。他们的分析表明,Muon 所近似的 SignSVD,对于大批量大小,会相对于数据协方差谱进行平方根预处理。相比之下,较小的特征模式在小批量大小时表现得像 SGD,减缓了收敛速度,而 SignSGD 对通用协方差不提供预处理,导致不同的最优学习率和收敛特性。 AI
影响 为机器学习中使用的优化算法行为提供了理论见解,可能指导未来的算法开发。
排序理由 分析优化算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →