PulseAugur
实时 22:05:27
English(EN) Benchmarking Testing in Automated Theorem Proving

LLM定理生成在语义正确性方面表现不佳,新基准测试揭示

研究人员开发了一个名为T的新框架,用于评估自动定理证明中大型语言模型生成的定理的语义正确性。这种方法受到代码生成测试的启发,通过检查依赖的后继定理是否成功编译来验证定理。使用T在真实的Lean 4存储库上进行的实验显示,虽然像Claude-Sonnet-4.5这样的当前模型可以编译生成的定理,但它们的语义准确性却显著较低,这凸显了它们在定理生成能力方面存在的差距。 AI

影响 引入了一种新颖的LLM生成定理的语义评估指标,揭示了当前模型存在显著的性能差距。

排序理由 该集群描述了一个用于AI在自动定理证明领域的新评估框架和基准测试,该内容发表在arXiv论文中。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LLM定理生成在语义正确性方面表现不佳,新基准测试揭示

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Jongyoon Kim, Hojae Han, Seung-won Hwang ·

    Benchmarking Testing in Automated Theorem Proving

    arXiv:2604.23698v1 Announce Type: new Abstract: Recent advances in large language models (LLMs) have shown promise in formal theorem proving, yet evaluating semantic correctness remains challenging. Existing evaluations rely on indirect proxies such as lexical overlap with human-…