PulseAugur
实时 10:20:47
English(EN) Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works

新的强化学习算法修复将GSM8K准确率提升45个点

研究人员在将组相对策略优化(GRPO)算法应用于二元奖励时,发现了一个关键问题,导致“梯度饥饿”。当一组中的所有响应都正确或不正确时,就会发生这种情况,导致学习信号为零。研究证明,这种退化比之前认为的更严重,并表明一个简单的修复方法,即固定参考符号优势,显著提高了性能。在GSM8K数据集上,与标准的GRPO方法相比,这种修复将准确率提高了45.4个点。 AI

影响 改进了在二元奖励上训练的模型的人类反馈强化学习(RLHF),可能提高代码生成等任务的性能。

排序理由 该集群包含一篇详细介绍新算法修复和基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的强化学习算法修复将GSM8K准确率提升45个点

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Jyh-Shing Roger Jang ·

    二元奖励 GRPO 中的梯度饥饿:为何组均值中心化失效以及最简单的修复方法为何有效

    Group Relative Policy Optimization (GRPO) is a standard algorithm for reinforcement learning from verifiable rewards, but its group-mean-centered advantage can fail under binary rewards. The failure mode is gradient starvation: when every response in a group is correct or every r…