English(EN) Learning to Solve, Forgetting to Retain: Correct-Set Turnover in RLVR

新的RLVR方法解决了大型语言模型遗忘已解决问题的问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员在可验证奖励强化学习（RLVR）中为大型语言模型识别出一种称为“正确集周转”的现象。此问题会导致模型在训练新问题时遗忘先前已解决的问题。为了解决这个问题，提出了一种新的名为“Remind”的保留感知审查机制。Remind旨在通过定期重新引入已解决的问题来明确优化获取和保留，并在各种基准和模态上展示了改进的性能。 AI

影响解决了大型语言模型训练中的一个关键限制，有可能在各种任务中实现更强大、更可靠的模型。

排序理由该集群包含一篇详细介绍改进大型语言模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Peng Fu, Zheng Lin · 2026-06-03 04:00

学习解决，遗忘保留：RLVR中的正确集周转

arXiv:2606.03087v1 Announce Type: new Abstract: Reinforcement learning with verifiable rewards (RLVR) improves the ability of large language model, yet headline accuracy gains often conceal a hidden cost: previously solved problems quietly become unsolvable as training proceeds. …

报道来源 [1]

学习解决，遗忘保留：RLVR中的正确集周转

相关实体

相关话题