PulseAugur
实时 11:59:16

新的Dead-Direction Conditioners通过尊重对称性来优化深度网络

研究人员开发了一种名为Dead-Direction Conditioners (DDC) 的新优化技术,旨在通过尊重深度神经网络的连续对称性来改进其训练。与Adam等标准优化器不同,DDC明确地在对称轨道内对优化器的状态进行条件化,确保训练轨迹保持在相关的商空间上。与传统方法相比,这种方法在防止语言模型中的过度训练崩溃和在视觉Transformer中实现更低的验证损失方面显示出显著的好处。DDC技术在寻找最优解方面也表现出改进的性能,特别是在深度Muon网络等复杂架构中。 AI

影响 该方法可能导致更稳定、更高效的大型语言模型和视觉模型的训练,从而可能提高性能并降低计算成本。

排序理由 学术论文,详细介绍了一种优化深度神经网络的新颖方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的Dead-Direction Conditioners通过尊重对称性来优化深度网络

报道来源 [2]

  1. arXiv stat.ML TIER_1 English(EN) · Tejas Pradeep Shirodkar ·

    Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks

    arXiv:2606.29176v1 Announce Type: cross Abstract: A deep network's loss is invariant to continuous symmetries of its parameters: the logit shift, the ReLU rescaling, the LayerNorm scale, the per-head attention rotation. Adam's per-coordinate preconditioner drifts along each symme…

  2. arXiv stat.ML TIER_1 English(EN) · Tejas Pradeep Shirodkar ·

    Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks

    A deep network's loss is invariant to continuous symmetries of its parameters: the logit shift, the ReLU rescaling, the LayerNorm scale, the per-head attention rotation. Adam's per-coordinate preconditioner drifts along each symmetry orbit, which pulls the trajectory off the symm…