研究人员开发了 MerLean-Prover,一个用于 Lean 4 的端到端定理证明器,可生成可由内核检查的证明。该系统利用一个包含三种代理类型(规划、检查和 Lean)的递归循环,并在 FormalQualBench 和 Putnam2025 等基准测试中展现出强劲的性能。值得注意的是,MerLean-Prover 在 FormalQualBench 上取得了 10/23 的成绩,优于现有的开源基线,并以更少的计算时间成功解决了 Putnam2025 上的所有 12 个问题。该工具设计对 Sonnet 和 Haiku 等较小模型也同样有效。 AI
排序理由 该集群包含一篇详细介绍新型定理证明系统及其基准测试结果的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →