English(EN) On-Policy Replay for Continual Supervised Fine-Tuning

新的策略内重放方法可对抗大语言模型的遗忘问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 04:00

研究人员开发了一种名为策略内重放（On-Policy Replay, OPR）的新方法，以解决大语言模型在持续监督微调过程中发生的灾难性遗忘问题。OPR 根据任务奖励过滤历史提示，并将幸存的提示-响应对作为标准SFT示例进行重放，避免了辅助损失或蒸馏。在三个7B-8B指令微调模型（包括Qwen2.5-7B-Instruct、Qwen3-8B和Llama3.1-8B-Instruct）上的实验表明，OPR在TRACE基准测试上显著减少了遗忘，与微调的Vanilla Replay基线相比取得了实质性改进。 AI

影响这项研究提供了一种缓解大语言模型灾难性遗忘的新方法，有望在不牺牲先验知识的情况下提高其对新任务的适应性。

排序理由这是一篇详细介绍改进大语言模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yan Chen, Taojie Zhu, Meng Zhang, Xin Chen, Jiaqi Huang, Dongyang Xu, Yizhi Wang · 2026-05-29 04:00

持续监督微调的策略内重放

arXiv:2605.29495v1 Announce Type: new Abstract: Continual supervised fine-tuning (SFT) is the de facto recipe for adapting large language models (LLMs) to a stream of downstream tasks, but it suffers from catastrophic forgetting of earlier capabilities. Recent work shows that on-…

报道来源 [1]

持续监督微调的策略内重放

相关实体

相关话题