English(EN) Beyond Penalizing Mistakes: Stabilizing Efficiency Training in Large Reasoning Models via Adaptive Correct-Only Rewards

新的ACOER方法稳定LLM的推理效率训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-21 23:27

研究人员开发了一种名为ACOER（自适应仅正确效率奖励）的新方法，以稳定大型语言模型用于高效推理的训练。现有的GRPO（组相对策略优化）等方法经常导致奖励崩溃，降低模型性能。ACOER通过将简洁奖励隔离到正确答案，并防止通过动态归一化和惩罚调整进行过度压缩来解决此问题。实验表明，ACOER在提高准确性的同时显著减少了令牌生成。 AI

影响这项研究为训练用于高效推理的LLM提供了一种更稳定的方法，有望带来更强大、更简洁的模型。

排序理由该集群包含一篇详细介绍大型语言模型训练新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Heuiseok Lim · 2026-06-21 23:27

Beyond Penalizing Mistakes: Stabilizing Efficiency Training in Large Reasoning Models via Adaptive Correct-Only Rewards

Training large language models to reason efficiently is a critical challenge. While integrating length-penalizing rewards into Group Relative Policy Optimization (GRPO) aims to reduce verbosity, it frequently triggers reward collapse, severely degrading reasoning capabilities. Th…

报道来源 [1]

Beyond Penalizing Mistakes: Stabilizing Efficiency Training in Large Reasoning Models via Adaptive Correct-Only Rewards

相关实体

相关话题