一篇新的研究论文评估了各种大型语言模型(LLM)在使用Lean 4定理证明器生成形式化数学证明方面的性能。该研究在miniF2F和miniCTX数据集的子集上采用了pass@k和refine@k指标。Gemini 3.1 Pro和Claude Opus 4.7表现出最高的成功率,其中Gemini在miniF2F上达到92%,Opus在miniCTX上达到86%。在成本效益方面,NVIDIA Nemotron 3 Super和GPT-OSS 120B以较低的每证明成本提供了具有竞争力的准确性。 AI
影响 这项研究突显了LLM在形式化数学方面的能力,可能有助于定理证明和数学研究。
排序理由 该集群包含一篇评估LLM在特定任务上性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →