实体 On-Policy Replay

On-Policy Replay

PulseAugur coverage of On-Policy Replay — every cluster mentioning On-Policy Replay across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_58914 · May 29 · 04:00

新的策略内重放方法可对抗大语言模型的遗忘问题

研究人员开发了一种名为策略内重放（On-Policy Replay, OPR）的新方法，以解决大语言模型在持续监督微调过程中发生的灾难性遗忘问题。OPR 根据任务奖励过滤历史提示，并将幸存的提示-响应对作为标准SFT示例进行重放，避免了辅助损失或蒸馏。在三个7B-8B指令微调模型（包括Qwen2.5-7B-Instruct、Qwen3-8B和Llama3.1-8B-Instruct）上的实验表明，OPR在TRACE基准测试上显著减少了…