实体
SignSGD
SignSGD
PulseAugur coverage of SignSGD — every cluster mentioning SignSGD across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
Muon 优化器分析揭示了与 SignSGD 不同的收敛阶段
研究人员分析了随机谱优化器,包括 Muon,在一个高维矩阵值最小二乘问题中。他们的分析表明,Muon 所近似的 SignSVD,对于大批量大小,会相对于数据协方差谱进行平方根预处理。相比之下,较小的特征模式在小批量大小时表现得像 SGD,减缓了收敛速度,而 SignSGD 对通用协方差不提供预处理,导致不同的最优学习率和收敛特性。
-
SignSGD和Muon优化器的性能提升得到理论解释
研究人员从理论上分析了像SignSGD和Muon这样的基于符号的优化算法为何能在训练大型模型时优于标准SGD。一项新研究表明,SignSGD的优势源于其在特定条件下的有效性,例如稀疏噪声和$\\ell_1$-范数平稳性,而标准SGD在处理这些条件时效率不高。另一篇论文质疑了Muon复杂几何结构的必要性,提出像随机或反向谱等更简单的方法可以通过关注局部对齐和下降潜力来实现类似的性能。
-
研究人员分析Adam的权衡并用混合切换策略增强SignSGD
两篇新研究论文探讨了机器学习优化算法的进展。一篇论文对Adam优化器进行了理论分析,详细说明了其在非平稳目标下的性能,并确定了噪声和漂移之间的权衡。第二篇论文通过引入小批量收敛性分析和混合切换策略(包括抖动和向SGD的过渡)来增强SignSGD算法,在图像分类任务上实现了具有竞争力的准确性。