English(EN) Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works

新的强化学习算法修复将GSM8K准确率提升45个点

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 12:58

研究人员在将组相对策略优化（GRPO）算法应用于二元奖励时，发现了一个关键问题，导致“梯度饥饿”。当一组中的所有响应都正确或不正确时，就会发生这种情况，导致学习信号为零。研究证明，这种退化比之前认为的更严重，并表明一个简单的修复方法，即固定参考符号优势，显著提高了性能。在GSM8K数据集上，与标准的GRPO方法相比，这种修复将准确率提高了45.4个点。 AI

影响改进了在二元奖励上训练的模型的人类反馈强化学习（RLHF），可能提高代码生成等任务的性能。

排序理由该集群包含一篇详细介绍新算法修复和基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Jyh-Shing Roger Jang · 2026-05-08 12:58

二元奖励 GRPO 中的梯度饥饿：为何组均值中心化失效以及最简单的修复方法为何有效

Group Relative Policy Optimization (GRPO) is a standard algorithm for reinforcement learning from verifiable rewards, but its group-mean-centered advantage can fail under binary rewards. The failure mode is gradient starvation: when every response in a group is correct or every r…

报道来源 [1]

二元奖励 GRPO 中的梯度饥饿：为何组均值中心化失效以及最简单的修复方法为何有效

相关实体

相关话题