研究人员开发了一种名为Dead-Direction Conditioners (DDC) 的新优化技术,旨在通过尊重深度神经网络的连续对称性来改进其训练。与Adam等标准优化器不同,DDC明确地在对称轨道内对优化器的状态进行条件化,确保训练轨迹保持在相关的商空间上。与传统方法相比,这种方法在防止语言模型中的过度训练崩溃和在视觉Transformer中实现更低的验证损失方面显示出显著的好处。DDC技术在寻找最优解方面也表现出改进的性能,特别是在深度Muon网络等复杂架构中。 AI
影响 该方法可能导致更稳定、更高效的大型语言模型和视觉模型的训练,从而可能提高性能并降低计算成本。
排序理由 学术论文,详细介绍了一种优化深度神经网络的新颖方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →