研究人员在将组相对策略优化(GRPO)算法应用于二元奖励时,发现了一个关键问题,导致“梯度饥饿”。当一组中的所有响应都正确或不正确时,就会发生这种情况,导致学习信号为零。研究证明,这种退化比之前认为的更严重,并表明一个简单的修复方法,即固定参考符号优势,显著提高了性能。在GSM8K数据集上,与标准的GRPO方法相比,这种修复将准确率提高了45.4个点。 AI
影响 改进了在二元奖励上训练的模型的人类反馈强化学习(RLHF),可能提高代码生成等任务的性能。
排序理由 该集群包含一篇详细介绍新算法修复和基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →