PulseAugur
实时 18:00:30
English(EN) MINIF2F-DAFNY: LLM-Guided Mathematical Theorem Proving via Auto-Active Verification

新的基准MINIF2F-DAFNY测试LLM的数学定理证明能力

研究人员开发了MINIF2F-DAFNY,这是一个用于评估大型语言模型(LLM)在数学定理证明方面的新基准。该系统将miniF2F基准转换为Dafny,一个自动主动验证器,使LLM能够指导证明生成,而Dafny的自动定理证明器则处理低级细节。在评估中,表现最佳的LLM Claude Opus-4.6 达到了 62.7% 的累积通过率,显著优于基线性能。 AI

影响 该基准可以加速能够进行复杂数学推理和形式验证的LLM的发展。

排序理由 该集群描述了一个在arXiv上发布的用于LLM在数学定理证明方面的新基准和评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的基准MINIF2F-DAFNY测试LLM的数学定理证明能力

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Mantas Baksys, Stefan Zetzsche, Olivier Bouissou, Sean B. Holden ·

    MINIF2F-DAFNY:通过自动主动验证实现LLM引导的数学定理证明

    arXiv:2512.10187v3 Announce Type: replace Abstract: LLMs excel at reasoning, but validating their steps remains challenging. Formal verification offers a solution through mechanically checkable proofs. Interactive theorem provers (ITPs) dominate mathematical reasoning but require…