新研究将优化器选择与LLM微调中遗忘减少联系起来

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-07 17:57

研究人员探讨了优化器一致性对大型语言模型微调的影响。一项研究表明，在预训练和微调过程中使用相同的优化器可以减少知识遗忘，并在新任务上获得更好的性能，这种现象被称为“优化器-模型一致性”。与LoRA等其他方法相比，这种方法可能提供更好的学习-遗忘权衡。另一篇论文引入了“谱边分析”来研究神经网络训练中的相变，将“grokking”和能力提升等现象与参数更新矩阵的谱隙联系起来。该框架表明，优化器的选择会影响这些动态，实验结果证实了在各种模型尺寸上的预测。 AI

影响这些研究为理解和改进大型语言模型的训练和微调提供了新的理论框架和经验证据，有望带来更高效、更有效的模型开发。

排序理由两篇在arXiv上发表的学术论文，详细介绍了神经网络训练动态和优化方面的新发现。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.LG TIER_1 English(EN) · Yuxing Liu, Jianyu Wang, Tong Zhang · 2026-05-08 04:00

优化器-模型一致性：使用与预训练相同的优化器进行完全微调可减少遗忘

arXiv:2605.06654v1 Announce Type: new Abstract: Optimizers play an important role in both pretraining and finetuning stages when training large language models (LLMs). In this paper, we present an observation that full finetuning with the same optimizer as in pretraining achieves…
arXiv cs.LG TIER_1 English(EN) · Yongzhong Xu · 2026-05-08 04:00

光谱边缘动力学：神经网络训练中相变的一个解析-经验研究

arXiv:2603.28964v3 Announce Type: replace Abstract: We develop the spectral edge analysis: phase transitions in neural network training -- grokking, capability gains, loss plateaus -- are controlled by the spectral gap of the rolling-window Gram matrix of parameter updates. In th…
arXiv cs.AI TIER_1 English(EN) · Tong Zhang · 2026-05-07 17:57

优化器-模型一致性：使用与预训练相同的优化器进行完全微调可减少遗忘

Optimizers play an important role in both pretraining and finetuning stages when training large language models (LLMs). In this paper, we present an observation that full finetuning with the same optimizer as in pretraining achieves a better learning-forgetting tradeoff, i.e., fo…

报道来源 [3]

优化器-模型一致性：使用与预训练相同的优化器进行完全微调可减少遗忘

光谱边缘动力学：神经网络训练中相变的一个解析-经验研究

优化器-模型一致性：使用与预训练相同的优化器进行完全微调可减少遗忘

相关实体

相关话题