PulseAugur
实时 15:25:46
English(EN) Zeta: Dual Whitening for Matrix Optimization via Coordinate-Adaptive Preconditioning

Zeta 优化器通过双重白化改进神经网络训练

研究人员推出了一种新颖的双重白化优化器 Zeta,旨在改进大规模神经网络的训练。Zeta 解决了动量矩阵中的尺度异质性问题,这是 Muon 等现有感知矩阵优化器的一个弱点。通过应用坐标白化后进行谱白化,Zeta 提高了输入的条件数,从而减少了正交化误差并加快了收敛速度。该优化器在语言建模和视觉任务等各种任务中,对于参数量从 0.6B 到 8B 的模型,均展现出具有竞争力或更优越的性能。 AI

影响 Zeta 的双重白化方法有望加速大规模神经网络训练的收敛速度并提高泛化能力。

排序理由 该集群包含一篇详细介绍神经网络新优化技术的论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Zeta 优化器通过双重白化改进神经网络训练

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Kaiwen Chen, Shuhai Zhang, Qiuwu Chen, Zimo Liu, Linxiao Li, Ying Sun, Yuchen Li, Yifan Zhang, Bo Han, Mingkui Tan ·

    Zeta: Dual Whitening for Matrix Optimization via Coordinate-Adaptive Preconditioning

    arXiv:2606.14187v1 Announce Type: new Abstract: Large-scale neural network training increasingly relies on matrix-aware optimizers that exploit the structure of weight parameters beyond element-wise adaptation. However, existing matrix-aware methods such as Muon have an underappr…

  2. arXiv cs.LG TIER_1 English(EN) · Mingkui Tan ·

    Zeta:通过坐标自适应预处理实现矩阵优化的双重白化

    Large-scale neural network training increasingly relies on matrix-aware optimizers that exploit the structure of weight parameters beyond element-wise adaptation. However, existing matrix-aware methods such as Muon have an underappreciated vulnerability: their core operation, New…