English(EN) Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory

像Muon这样的谱优化器在联想记忆任务中表现出急剧的容量缩放

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 04:00

一篇新论文分析了像Muon这样的谱优化器在训练大型语言模型中的性能，通过检查它们在学习联想记忆方面的有效性。研究表明，在存储联想方面，Muon显著优于标准的随机梯度下降（SGD），甚至在使用仅有一阶信息的情况下也能媲美牛顿法。该研究还强调了与SGD相比，Muon的临界批次大小更大，初始恢复率更快，从而对谱预处理器的信号放大进行了量化理解。 AI

影响为谱优化器提供了理论理解，可能指导未来在LLM训练效率方面的进步。

排序理由学术论文，分析了用于大型语言模型的特定优化技术。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Juno Kim, Eshaan Nichani, Denny Wu, Alberto Bietti, Jason D. Lee · 2026-04-29 04:00

学习联想记忆的谱优化器容量的急剧扩展

arXiv:2603.26554v2 Announce Type: replace-cross Abstract: Spectral optimizers such as Muon have recently shown strong empirical performance in large-scale language model training, but the source and extent of their advantage remain poorly understood. We study this question throug…

报道来源 [1]

学习联想记忆的谱优化器容量的急剧扩展

相关实体

相关话题