实体 lambda-GRPO

lambda-GRPO

PulseAugur coverage of lambda-GRPO — every cluster mentioning lambda-GRPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_58783 · May 29 · 04:00

新论文显示 GRPO 强化学习算法等同于过程奖励模型

一项新的研究论文提出，当群组相对策略优化 (GRPO) 强化学习算法与结果奖励模型一起使用时，在数学上等同于过程奖励模型。这种等同性揭示了 GRPO 中可能阻碍探索和利用的一个缺陷。研究人员引入了一种改进方法，lambda-GRPO，该方法解决了这一缺陷，并已被证明可以提高 LLM 在推理任务上的性能并加速训练。