English(EN) MINIF2F-DAFNY: LLM-Guided Mathematical Theorem Proving via Auto-Active Verification

新的基准MINIF2F-DAFNY测试LLM的数学定理证明能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 04:00

研究人员开发了MINIF2F-DAFNY，这是一个用于评估大型语言模型（LLM）在数学定理证明方面的新基准。该系统将miniF2F基准转换为Dafny，一个自动主动验证器，使LLM能够指导证明生成，而Dafny的自动定理证明器则处理低级细节。在评估中，表现最佳的LLM Claude Opus-4.6 达到了 62.7% 的累积通过率，显著优于基线性能。 AI

影响该基准可以加速能够进行复杂数学推理和形式验证的LLM的发展。

排序理由该集群描述了一个在arXiv上发布的用于LLM在数学定理证明方面的新基准和评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Mantas Baksys, Stefan Zetzsche, Olivier Bouissou, Sean B. Holden · 2026-06-25 04:00

MINIF2F-DAFNY：通过自动主动验证实现LLM引导的数学定理证明

arXiv:2512.10187v3 Announce Type: replace Abstract: LLMs excel at reasoning, but validating their steps remains challenging. Formal verification offers a solution through mechanically checkable proofs. Interactive theorem provers (ITPs) dominate mathematical reasoning but require…

报道来源 [1]

MINIF2F-DAFNY：通过自动主动验证实现LLM引导的数学定理证明

相关实体

相关话题