研究人员开发了一个名为T的新框架,用于评估自动定理证明中大型语言模型生成的定理的语义正确性。这种方法受到代码生成测试的启发,通过检查依赖的后继定理是否成功编译来验证定理。使用T在真实的Lean 4存储库上进行的实验显示,虽然像Claude-Sonnet-4.5这样的当前模型可以编译生成的定理,但它们的语义准确性却显著较低,这凸显了它们在定理生成能力方面存在的差距。 AI
影响 引入了一种新颖的LLM生成定理的语义评估指标,揭示了当前模型存在显著的性能差距。
排序理由 该集群描述了一个用于AI在自动定理证明领域的新评估框架和基准测试,该内容发表在arXiv论文中。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →