PulseAugur
实时 12:06:04
实体 On-Policy Replay

On-Policy Replay

PulseAugur coverage of On-Policy Replay — every cluster mentioning On-Policy Replay across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_58914 ·

    新的策略内重放方法可对抗大语言模型的遗忘问题

    研究人员开发了一种名为策略内重放(On-Policy Replay, OPR)的新方法,以解决大语言模型在持续监督微调过程中发生的灾难性遗忘问题。OPR 根据任务奖励过滤历史提示,并将幸存的提示-响应对作为标准SFT示例进行重放,避免了辅助损失或蒸馏。在三个7B-8B指令微调模型(包括Qwen2.5-7B-Instruct、Qwen3-8B和Llama3.1-8B-Instruct)上的实验表明,OPR在TRACE基准测试上显著减少了…