PulseAugur
实时 08:10:49
实体 Magnitude--Direction (MD) Decoupling

Magnitude--Direction (MD) Decoupling

PulseAugur coverage of Magnitude--Direction (MD) Decoupling — every cluster mentioning Magnitude--Direction (MD) Decoupling across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_109597 ·

    新型优化器解耦权重幅度和方向,以改进神经网络训练

    研究人员引入了一种名为幅度-方向(MD)解耦的新型优化技术,该技术将神经网络中权重向量的幅度和方向分离开来。这种方法允许这两个组件拥有独立的学习率,可能带来更稳定、更高效的训练。MD解耦在大型混合专家模型上甚至比Adam和Muon等现有优化器表现出改进,并且消除了对权重衰减和预热等传统技术的需求。