PulseAugur
实时 10:30:45
English(EN) On-Policy Replay for Continual Supervised Fine-Tuning

新的策略内重放方法可对抗大语言模型的遗忘问题

研究人员开发了一种名为策略内重放(On-Policy Replay, OPR)的新方法,以解决大语言模型在持续监督微调过程中发生的灾难性遗忘问题。OPR 根据任务奖励过滤历史提示,并将幸存的提示-响应对作为标准SFT示例进行重放,避免了辅助损失或蒸馏。在三个7B-8B指令微调模型(包括Qwen2.5-7B-Instruct、Qwen3-8B和Llama3.1-8B-Instruct)上的实验表明,OPR在TRACE基准测试上显著减少了遗忘,与微调的Vanilla Replay基线相比取得了实质性改进。 AI

影响 这项研究提供了一种缓解大语言模型灾难性遗忘的新方法,有望在不牺牲先验知识的情况下提高其对新任务的适应性。

排序理由 这是一篇详细介绍改进大语言模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的策略内重放方法可对抗大语言模型的遗忘问题

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yan Chen, Taojie Zhu, Meng Zhang, Xin Chen, Jiaqi Huang, Dongyang Xu, Yizhi Wang ·

    持续监督微调的策略内重放

    arXiv:2605.29495v1 Announce Type: new Abstract: Continual supervised fine-tuning (SFT) is the de facto recipe for adapting large language models (LLMs) to a stream of downstream tasks, but it suffers from catastrophic forgetting of earlier capabilities. Recent work shows that on-…