PulseAugur
实时 01:33:21
English(EN) Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory

像Muon这样的谱优化器在联想记忆任务中表现出急剧的容量缩放

一篇新论文分析了像Muon这样的谱优化器在训练大型语言模型中的性能,通过检查它们在学习联想记忆方面的有效性。研究表明,在存储联想方面,Muon显著优于标准的随机梯度下降(SGD),甚至在使用仅有一阶信息的情况下也能媲美牛顿法。该研究还强调了与SGD相比,Muon的临界批次大小更大,初始恢复率更快,从而对谱预处理器的信号放大进行了量化理解。 AI

影响 为谱优化器提供了理论理解,可能指导未来在LLM训练效率方面的进步。

排序理由 学术论文,分析了用于大型语言模型的特定优化技术。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

像Muon这样的谱优化器在联想记忆任务中表现出急剧的容量缩放

报道来源 [1]

  1. arXiv stat.ML TIER_1 English(EN) · Juno Kim, Eshaan Nichani, Denny Wu, Alberto Bietti, Jason D. Lee ·

    Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory

    arXiv:2603.26554v2 Announce Type: replace-cross Abstract: Spectral optimizers such as Muon have recently shown strong empirical performance in large-scale language model training, but the source and extent of their advantage remain poorly understood. We study this question throug…