PulseAugur
实时 20:41:07
实体 lambda-GRPO

lambda-GRPO

PulseAugur coverage of lambda-GRPO — every cluster mentioning lambda-GRPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_58783 ·

    新论文显示 GRPO 强化学习算法等同于过程奖励模型

    一项新的研究论文提出,当群组相对策略优化 (GRPO) 强化学习算法与结果奖励模型一起使用时,在数学上等同于过程奖励模型。这种等同性揭示了 GRPO 中可能阻碍探索和利用的一个缺陷。研究人员引入了一种改进方法,lambda-GRPO,该方法解决了这一缺陷,并已被证明可以提高 LLM 在推理任务上的性能并加速训练。