研究人员开发了MINIF2F-DAFNY,这是一个用于评估大型语言模型(LLM)在数学定理证明方面的新基准。该系统将miniF2F基准转换为Dafny,一个自动主动验证器,使LLM能够指导证明生成,而Dafny的自动定理证明器则处理低级细节。在评估中,表现最佳的LLM Claude Opus-4.6 达到了 62.7% 的累积通过率,显著优于基线性能。 AI
影响 该基准可以加速能够进行复杂数学推理和形式验证的LLM的发展。
排序理由 该集群描述了一个在arXiv上发布的用于LLM在数学定理证明方面的新基准和评估。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Claude Opus-4.6
- Dafny
- Instituto Todos Pela Saúde
- Mantas Baksys
- miniF2F
- MINIF2F-DAFNY
- satisfiability modulo theories
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →