研究人员发现了一种称为“模型可塑性损失”的现象,该现象阻碍了大型语言模型在监督微调(SFT)后进行强化学习(RL)的有效性。过度的SFT会导致模型过于自信的token分布和困难的优化景观,限制了RL进一步提升模型能力的能力。为了解决这个问题,提出了一种名为“Rejuvenation”的新方法,该方法使用基于基础模型的融合和有针对性的神经元重置来恢复可塑性,同时保留SFT的好处,在推理和代理任务上表现出改进的性能。 AI
影响 解决了LLM训练管道中的一个关键限制,有望提高模型在复杂任务上的性能。
排序理由 提出LLM训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →