English(EN) Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

研究表明强化学习可减少语言模型遗忘

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

一篇题为“通过实践来保留”（Retaining by Doing）的新研究论文探讨了如何在训练后适应过程中缓解语言模型的灾难性遗忘。该研究比较了监督微调（SFT）与强化学习（RL），发现利用策略内数据的RL方法在保持目标任务相当或更优的性能的同时，遗忘更少。这种鲁棒性归因于RL的模式寻求特性，有助于保留先验知识。研究结果表明，使用近似策略内数据可能是减少实际应用中遗忘的有效策略。 AI

影响提出了一种更有效的语言模型适应方法，而不会牺牲现有知识。

排序理由该集群包含一篇详细介绍语言模型行为研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Howard Chen, Noam Razin, Karthik Narasimhan, Danqi Chen · 2026-06-29 04:00

Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

arXiv:2510.18874v3 Announce Type: replace-cross Abstract: Adapting language models (LMs) to new tasks via post-training carries the risk of degrading existing capabilities -- a phenomenon classically known as catastrophic forgetting. In this paper, toward identifying guidelines f…

报道来源 [1]

Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

相关实体

相关话题