FormalRewardBench benchmark evaluates LLM reward models for theorem proving

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 07:51

研究人员推出了 FormalRewardBench，一个用于评估形式化定理证明中奖励模型的新基准。该基准通过在无需大量重新训练的情况下比较奖励模型，解决了定理证明器强化学习中信用稀疏分配的挑战。FormalRewardBench 包含 250 对偏好数据，并采用了各种错误注入策略，已用于测试多个大型语言模型，结果表明前沿模型在评估证明质量方面表现最佳。 AI

影响该基准旨在改进 AI 定理证明器的奖励模型，有望在形式数学和复杂推理任务中催生更强大的 AI 系统。

排序理由该集群描述了一篇介绍用于评估特定领域 AI 模型的基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

FormalRewardBench benchmark evaluates LLM reward models for theorem proving

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Gözde Gül Şahin · 2026-05-11 07:51

FormalRewardBench：形式定理证明奖励模型的基准

Recent neural theorem provers use reinforcement learning with verifiable rewards (RLVR), where proof assistants provide binary correctness signals. While verifiable rewards are cheap and scalable without reward hacking issues, they suffer from sparse credit assignment: models rec…

报道来源 [1]

FormalRewardBench：形式定理证明奖励模型的基准

相关实体

相关话题