English(EN) Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

研究人员发现LLM的RLVR训练会激活记忆捷径

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员在通过可验证奖励强化学习（RLVR）训练的大型语言模型（LLM）中发现了一种“困惑度悖论”。当模型在收到虚假或不正确奖励的情况下仍取得性能提升时，就会出现这种悖论，这表明模型从推理转向了记忆。该研究详细介绍了一个特定的“锚点-适配器”电路，该电路涉及中间层的函数式锚点和后几层的结构性适配器，从而促进了这种捷径。研究还表明，通过扩展该电路中的特定MLP键可以因果性地引导模型的行为，为识别和减轻RLVR微调模型中的数据污染提供了一种方法。 AI

影响提供了对LLM在RLVR训练过程中如何被引导进行记忆而非推理的机制性理解，可能影响未来的模型对齐和安全研究。

排序理由该集群包含一篇学术论文，详细介绍了对LLM行为的新机制性理解。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng, Wenxi Li, Longyue Wang, Chenyang Lyu · 2026-06-26 04:00

虚假奖励悖论：RLVR在LLM中激活记忆捷径的机制性理解

arXiv:2601.11061v2 Announce Type: replace-cross Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We in…

报道来源 [1]

虚假奖励悖论：RLVR在LLM中激活记忆捷径的机制性理解

相关实体

相关话题