English(EN) SorryDB: Can AI Provers Complete Real-World Lean Theorems?

新的AI基准SorryDB测试现实世界数学形式化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员推出了SorryDB，这是一个新颖的基准，旨在评估AI在Lean数学证明助手完成现实世界形式化任务的能力。与静态基准不同，SorryDB会动态更新GitHub项目中的开放任务，目标是生产更符合社区需求并能处理复杂依赖关系的AI工具。初步评估表明，尽管使用Gemini Flash的代理方法表现最佳，但它并不严格优于其他大型语言模型、专业证明器或精选的Lean策略，这表明当前形式数学的AI方法之间存在互补性。 AI

影响该基准可以加速能够为形式数学和复杂依赖推理做出贡献的AI代理的开发。

排序理由该集群描述了一篇介绍AI研究新基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Austin Letson, Leopoldo Sarra, Auguste Poiroux, Oliver Dressler, Paul Lezeau, Dhyan Aranha, Frederick Pu, Aaron Hill, Miguel Corredera Hidalgo, Julian Berman, George Tsoukalas, Lenny Taelman · 2026-06-16 04:00

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

arXiv:2603.02668v2 Announce Type: replace Abstract: We present SorryDB, a dynamically-updating benchmark of open Lean tasks drawn from 78 real world formalization projects on GitHub. Unlike existing static benchmarks, often composed of competition problems, hillclimbing the Sorry…

报道来源 [1]

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

相关实体

相关话题