PulseAugur
实时 07:51:22

新研究将优化器与神经网络中的模式连通性联系起来

研究人员探讨了优化器在神经网络模式连通性中的作用,这是一个之前探索不足的概念。他们的工作表明,在足够宽度的双层ReLU网络中,由单个优化器(如AdamW或Muon)生成的解形成一个连通集。该研究进一步描述了不同优化器产生的区域如何相互作用,表明它们可能根据正则化和网络宽度而分离或重叠。对GPT-2预训练的实证测试显示,使用相同优化器的路径保持了谱属性,而跨优化器的路径则表现出更平滑的过渡,突显了优化器依赖的结构。 AI

影响 揭示了模型训练中与优化器相关的结构,可能影响未来大型模型的优化技术。

排序理由 学术论文,详细介绍了优化器诱导的神经网络模式连通性方面的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新研究将优化器与神经网络中的模式连通性联系起来

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Mert Pilanci ·

    Optimizer-Induced Mode Connectivity: From AdamW to Muon

    Mode connectivity has been widely studied, yet the role of the optimizer remains underexplored. We revisit it through optimizer-induced implicit regularization, asking how connectivity behaves when restricted to solutions constrained by a given optimizer. For two-layer ReLU netwo…