实体 Reinforcement Learning from Verifiable Rewards (RLVR)

Reinforcement Learning from Verifiable Rewards (RLVR)

PulseAugur coverage of Reinforcement Learning from Verifiable Rewards (RLVR) — every cluster mentioning Reinforcement Learning from Verifiable Rewards (RLVR) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_99600 · Jun 18 · 10:40

新RL方法使用Lean证明助手提供更丰富的训练信号

研究人员开发了一种名为过程验证强化学习（PVRL）的新型强化学习方法，该方法利用Lean证明助手在训练过程中提供密集、结构化的反馈。该方法利用Lean将证明尝试解析为策略序列的能力，提供超越简单二元成功或失败的细粒度、验证器支持的信号。与仅基于结果的方法相比，使用STP-Lean和DeepSeek-Prover-V1.5进行的实验表明，这种策略级别的监督提高了在MiniF2F和ProofNet等基准测试上的性能。该研究表明，符号证明助…

新RL方法使用Lean证明助手提供更丰富的训练信号