PulseAugur
实时 21:32:29
实体 Juno Kim

Juno Kim

PulseAugur coverage of Juno Kim — every cluster mentioning Juno Kim across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08564 ·

    像Muon这样的谱优化器在联想记忆任务中表现出急剧的容量缩放

    一篇新论文分析了像Muon这样的谱优化器在训练大型语言模型中的性能,通过检查它们在学习联想记忆方面的有效性。研究表明,在存储联想方面,Muon显著优于标准的随机梯度下降(SGD),甚至在使用仅有一阶信息的情况下也能媲美牛顿法。该研究还强调了与SGD相比,Muon的临界批次大小更大,初始恢复率更快,从而对谱预处理器的信号放大进行了量化理解。