PulseAugur
实时 18:41:27
English(EN) Beyond Penalizing Mistakes: Stabilizing Efficiency Training in Large Reasoning Models via Adaptive Correct-Only Rewards

新的ACOER方法稳定LLM的推理效率训练

研究人员开发了一种名为ACOER(自适应仅正确效率奖励)的新方法,以稳定大型语言模型用于高效推理的训练。现有的GRPO(组相对策略优化)等方法经常导致奖励崩溃,降低模型性能。ACOER通过将简洁奖励隔离到正确答案,并防止通过动态归一化和惩罚调整进行过度压缩来解决此问题。实验表明,ACOER在提高准确性的同时显著减少了令牌生成。 AI

影响 这项研究为训练用于高效推理的LLM提供了一种更稳定的方法,有望带来更强大、更简洁的模型。

排序理由 该集群包含一篇详细介绍大型语言模型训练新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的ACOER方法稳定LLM的推理效率训练

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Heuiseok Lim ·

    Beyond Penalizing Mistakes: Stabilizing Efficiency Training in Large Reasoning Models via Adaptive Correct-Only Rewards

    Training large language models to reason efficiently is a critical challenge. While integrating length-penalizing rewards into Group Relative Policy Optimization (GRPO) aims to reduce verbosity, it frequently triggers reward collapse, severely degrading reasoning capabilities. Th…