研究人员推出了一种新颖的双重白化优化器 Zeta,旨在改进大规模神经网络的训练。Zeta 解决了动量矩阵中的尺度异质性问题,这是 Muon 等现有感知矩阵优化器的一个弱点。通过应用坐标白化后进行谱白化,Zeta 提高了输入的条件数,从而减少了正交化误差并加快了收敛速度。该优化器在语言建模和视觉任务等各种任务中,对于参数量从 0.6B 到 8B 的模型,均展现出具有竞争力或更优越的性能。 AI
影响 Zeta 的双重白化方法有望加速大规模神经网络训练的收敛速度并提高泛化能力。
排序理由 该集群包含一篇详细介绍神经网络新优化技术的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →