English(EN) When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

新方法恢复LLM可塑性，以改善SFT后的RL效果

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员发现了一种称为“模型可塑性损失”的现象，该现象阻碍了大型语言模型在监督微调（SFT）后进行强化学习（RL）的有效性。过度的SFT会导致模型过于自信的token分布和困难的优化景观，限制了RL进一步提升模型能力的能力。为了解决这个问题，提出了一种名为“Rejuvenation”的新方法，该方法使用基于基础模型的融合和有针对性的神经元重置来恢复可塑性，同时保留SFT的好处，在推理和代理任务上表现出改进的性能。 AI

影响解决了LLM训练管道中的一个关键限制，有望提高模型在复杂任务上的性能。

排序理由提出LLM训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Runze Liu, Jiashun Liu, Xu Wan, Yuqian Fu, Ling Pan · 2026-06-10 04:00

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

arXiv:2606.09932v1 Announce Type: cross Abstract: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has become a standard pipeline for Large Language Model (LLM) post-training. SFT is expected to provide a useful behavioral prior for RL to further enhance model…

报道来源 [1]

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

相关实体

相关话题