PulseAugur
实时 07:38:39
实体 Reinforcement Learning from Verifiable Rewards (RLVR)

Reinforcement Learning from Verifiable Rewards (RLVR)

PulseAugur coverage of Reinforcement Learning from Verifiable Rewards (RLVR) — every cluster mentioning Reinforcement Learning from Verifiable Rewards (RLVR) across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_99600 ·

    新RL方法使用Lean证明助手提供更丰富的训练信号

    研究人员开发了一种名为过程验证强化学习(PVRL)的新型强化学习方法,该方法利用Lean证明助手在训练过程中提供密集、结构化的反馈。该方法利用Lean将证明尝试解析为策略序列的能力,提供超越简单二元成功或失败的细粒度、验证器支持的信号。与仅基于结果的方法相比,使用STP-Lean和DeepSeek-Prover-V1.5进行的实验表明,这种策略级别的监督提高了在MiniF2F和ProofNet等基准测试上的性能。该研究表明,符号证明助…