新研究将优化器与神经网络中的模式连通性联系起来

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 05:07

研究人员探讨了优化器在神经网络模式连通性中的作用，这是一个之前探索不足的概念。他们的工作表明，在足够宽度的双层ReLU网络中，由单个优化器（如AdamW或Muon）生成的解形成一个连通集。该研究进一步描述了不同优化器产生的区域如何相互作用，表明它们可能根据正则化和网络宽度而分离或重叠。对GPT-2预训练的实证测试显示，使用相同优化器的路径保持了谱属性，而跨优化器的路径则表现出更平滑的过渡，突显了优化器依赖的结构。 AI

影响揭示了模型训练中与优化器相关的结构，可能影响未来大型模型的优化技术。

排序理由学术论文，详细介绍了优化器诱导的神经网络模式连通性方面的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Mert Pilanci · 2026-05-11 05:07

Optimizer-Induced Mode Connectivity: From AdamW to Muon

Mode connectivity has been widely studied, yet the role of the optimizer remains underexplored. We revisit it through optimizer-induced implicit regularization, asking how connectivity behaves when restricted to solutions constrained by a given optimizer. For two-layer ReLU netwo…

报道来源 [1]

Optimizer-Induced Mode Connectivity: From AdamW to Muon

相关实体

相关话题