研究人员推出了一种名为Aurora的新型谱优化器,旨在解决矩阵参数中行范数不均匀的问题,尤其是在MLP层中。这个问题会导致神经元接收到的更新不足而变得无效。Aurora在保持动量矩阵理想几何特性的同时,强制执行矩阵参数更新中的行范数均匀性,在预训练实验中性能优于现有的Muon优化器。该新型优化器还在修改版的nanoGPT基准测试中取得了最先进的成果,并显示出训练非常宽的MLP层的潜力。 AI
影响 Aurora的改进可以实现更高效的更宽、更深神经网络的训练,可能加速AI领域的研究和开发。
排序理由 该集群描述了一篇关于机器学习模型新型优化器的新研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →