新RL方法使用Lean证明助手提供更丰富的训练信号

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 10:40

研究人员开发了一种名为过程验证强化学习（PVRL）的新型强化学习方法，该方法利用Lean证明助手在训练过程中提供密集、结构化的反馈。该方法利用Lean将证明尝试解析为策略序列的能力，提供超越简单二元成功或失败的细粒度、验证器支持的信号。与仅基于结果的方法相比，使用STP-Lean和DeepSeek-Prover-V1.5进行的实验表明，这种策略级别的监督提高了在MiniF2F和ProofNet等基准测试上的性能。该研究表明，符号证明助手可以充当过程级别的奖励预言机，将语言模型的可扩展性与符号验证的可靠性相结合，用于形式推理。 AI

影响这项研究通过将语言模型的能力与符号验证相结合，有可能提高AI系统在形式推理任务中的可靠性和可扩展性。

排序理由该项目是一篇研究论文，详细介绍了一种用于定理证明中强化学习的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Se-Young Yun · 2026-06-18 10:40

通过 Lean 对定理证明进行过程验证的强化学习

While reinforcement learning from verifiable rewards (RLVR) typically has relied on a single binary verification signal, symbolic proof assistants in formal reasoning offer rich, fine-grained structured feedback. This gap between structured processes and unstructured rewards high…

报道来源 [1]

通过 Lean 对定理证明进行过程验证的强化学习

相关实体

相关话题