Lean 4 Programming Language

神经符号框架改进数学语句自动形式化

研究人员开发了一种名为分解、结构化和修复（DSR）的新型神经符号框架，以改进自动形式化过程，该过程将自然语言数学语句转换为形式化代码。与先前将形式化代码视为扁平序列的方法不同，DSR将语句分解为逻辑组件，并将它们映射到结构化算子树。这种方法通过子树细化实现了更精确的错误定位和修复。该框架在一个名为PRIME的新基准上进行了评估，该基准包含156个定理，并展示了最先进的性能。

TOOL · CL_48690 · May 25 · 04:00

ImProver 2框架使用小型AI模型优化形式化数学证明

研究人员开发了ImProver 2，一个神经符号框架，旨在Lean 4环境中优化形式化数学证明。该系统采用专家迭代流程和整合了形式结构与非形式抽象的脚手架，以应对异构目标和高计算成本等挑战。一个使用ImProver 2训练的7B参数模型在各种指标上表现出与更大前沿模型相当的性能和显著提高的效率，表明证明优化是一项可扩展且可学习的任务。

TOOL · CL_44705 · May 22 · 04:00

新的张量代数嵌入了等变性以发现对称性

研究人员开发了一个新的张量代数框架，称为 $\star_G$，它内在地嵌入了等变性，从而实现了保持对称性的张量近似和物理对称性发现。该框架提供了每个不可约表示的预测的闭式分解，并且可以仅从数据中识别出潜在的对称群。在分子几何数据上的实证表明，与标准的 MLP 相比，参数显著减少，同时实现了可比的预测能力。

TOOL · CL_43556 · May 22 · 04:00

研究证明在共线性下特征排名不可能

一篇新发表在arXiv上的研究论文表明，当特征共线性时，没有任何特征排名方法能够同时做到忠实、稳定和完整。该研究证明了这种不可能，并针对各种模型类别进行了量化，表明像DASH这样的集成平均方法可以解决这个问题。这些发现对公平性审计有直接影响，表明基于SHAP的代理歧视审计在共线性下是不可靠的。

TOOL · CL_40749 · May 19 · 17:08

AI 定理证明器在 Lean 4 中难以完成全局数学证明

本文详细介绍了在 Lean 4 形式化环境中使用 Aristotle API 进行 AI 辅助定理证明的案例研究。该研究聚焦于 IMO 2009 年的一道难题——草蜢问题。虽然 AI 为局部证明组件生成了已验证的引理，但未能解决主定理，凸显了 AI 在处理复杂数学证明所需的全局组合计数方面的局限性。

TOOL · CL_38416 · May 19 · 04:00

新方法分解生成式AI中的不确定性以促进科学发现

研究人员开发了一种新方法来分解顺序生成模型中的认知不确定性，特别是那些用于AI驱动的科学发现的模型。通过将多项式混沌展开拟合到训练模型的集合中，该方法提供了对奖励不确定性如何影响生成决策的可解释的分解。该技术在识别各种科学任务中的敏感和鲁棒组件方面，提供了对复杂数据集的可操作见解，其性能优于深度集成和贝叶斯神经网络等传统方法。

TOOL · CL_31399 · May 13 · 08:33

Formal Conjectures benchmark 推动数学发现的AI研究

研究人员推出 Formal Conjectures，一个旨在评估数学领域自动化推理系统的新基准。这个在 Lean 4 中形式化的、不断发展的数据集，包含超过 2600 个数学问题陈述，其中包括 1029 个开放研究猜想和 836 个已解决问题。该基准促进了数学家与 AI 系统之间的协作，并已为解决开放猜想做出贡献，展示了其在推动 AI 驱动的数学发现方面的潜力。

TOOL · CL_27514 · May 11 · 07:51

FormalRewardBench benchmark evaluates LLM reward models for theorem proving

研究人员推出了 FormalRewardBench，一个用于评估形式化定理证明中奖励模型的新基准。该基准通过在无需大量重新训练的情况下比较奖励模型，解决了定理证明器强化学习中信用稀疏分配的挑战。FormalRewardBench 包含 250 对偏好数据，并采用了各种错误注入策略，已用于测试多个大型语言模型，结果表明前沿模型在评估证明质量方面表现最佳。

TOOL · CL_25582 · May 8 · 14:20

新框架将大语言模型生成的硬件设计形式化，以提高正确性

研究人员开发了 CktFormalizer 框架，该框架使用 Lean 4 来改进大语言模型从自然语言生成硬件描述的质量。该系统采用依赖类型，将宽度不匹配和逻辑不完整等常见硬件缺陷捕获为编译时错误，从而确保更高的正确性。CktFormalizer 不仅实现了具有竞争力的仿真通过率，还显著提高了后端可实现性，优化后的设计在保持功能等效性的同时，在面积和功耗方面均有大幅降低。

TOOL · CL_20536 · May 7 · 04:00

LLM 利用 Lean 中的上下文证明学习发现新定理

研究人员开发了一个名为“猜想-证明循环”（Conjecturing-Proving Loop, CPL）的新流程，该流程使用大型语言模型（LLM）来发现新的数学定理并在 Lean 4 中生成形式化证明。CPL 迭代地创建猜想并尝试证明它们，利用先前生成的定理和证明进行上下文学习。与同时生成陈述和证明的方法相比，这种方法在复杂定理的发现率方面有所提高，突显了神经定理证明中自生成上下文的有效性。

TOOL · CL_20428 · May 7 · 04:00

LLMs and Wilf-Zeilberger method combine for automated combinatorial proofs

研究人员开发了 WZ-LLM，一个结合了 Wilf-Zeilberger (WZ) 方法和大型语言模型 (LLMs) 的新型神经符号框架，用于自动证明组合恒等式。该方法将 WZ 证明计划翻译成 Lean 4 中的可执行草图，并利用基于 LLM 的证明器来处理子目标。实验表明，WZ-LLM 在 LCI-Test 数据集上的成功率为 34%，超过了 DeepSeek-V3 和 Goedel-Prover-V2 等现有方法。

RESEARCH · CL_12628 · May 1 · 23:34

Mathlib 网络分析揭示了人类组织与数学依赖之间的脱节

一篇新论文通过将 Mathlib（Lean 4 中最大的形式化数学库）视为一个网络来进行分析。研究人员发现，该库基于文件夹和命名约定的组织结构，与其定理之间的实际数学依赖关系不符。研究还显示，很大一部分逻辑依赖关系跨越了命名边界，并且许多连接是由编译器隐式生成的，而不是由人类显式编写的。此外，网络分析表明，最常使用的元素是等词的自反性，而不是像中国剩余定理那样在数学上更深刻的定理。

RESEARCH · CL_06783 · Apr 28 · 04:00

OptProver模型通过持续训练将奥赛数学与优化任务联系起来

研究人员开发了OptProver，一个旨在解决本科优化问题中形式化定理证明的新型AI模型。该模型建立在已在奥赛级别数学上训练过的证明器基础上，并将其适应于优化问题的独特形式化方法。OptProver利用大规模数据整理和专门的偏好学习目标来提高其生成证明的性能和效率。

RESEARCH · CL_06763 · Apr 28 · 04:00

Lean 4 自动形式化对表面措辞敏感，而非语义

研究人员调查了自然语言变体对 Lean 4 自动形式化的影响，发现语义等价的释义可能导致不同的形式化输出。他们的研究使用 GPT 系列模型和开源自动形式化器在 ProofNet# 和 miniF2F 数据集上进行，揭示了这些敏感性主要是由于编译失败而非语义分歧。研究结果表明，未来的努力应侧重于改进编译过程，而不是这些系统的语义层。

RESEARCH · CL_06644 · Apr 28 · 04:00

LLM定理生成在语义正确性方面表现不佳，新基准测试揭示

研究人员开发了一个名为T的新框架，用于评估自动定理证明中大型语言模型生成的定理的语义正确性。这种方法受到代码生成测试的启发，通过检查依赖的后继定理是否成功编译来验证定理。使用T在真实的Lean 4存储库上进行的实验显示，虽然像Claude-Sonnet-4.5这样的当前模型可以编译生成的定理，但它们的语义准确性却显著较低，这凸显了它们在定理生成能力方面存在的差距。

RESEARCH · CL_14197 · Apr 27 · 06:12

新研究深入探究LLM推理能力，揭示新颖的越狱漏洞

研究人员开发了一种新的方法，通过欺骗性的多轮对话利用大型语言模型的安全完成机制来对其进行越狱。这种被称为“意图欺骗”的技术通过模拟良性意图逐渐建立信任，最终引导GPT-5和Claude-Sonnet-4.5等模型生成有害输出。该研究还发现了一种名为“para-jailbreaking”的新漏洞，模型会间接泄露有害信息，并证明了该方法对多模态视觉语言模型的有效性。

TOOL · CL_17756 · Mar 23 · 18:45

FormalVerifML 为机器学习模型提供企业级形式化验证

一个名为 FormalVerifML 的新开源框架已发布，它利用 Lean 4 对机器学习模型进行形式化验证。该工具旨在为高风险应用提供诸如鲁棒性、公平性和安全性等属性的数学上严格的证明。它支持大型模型，包括 transformer 和视觉模型，并具备企业级使用和分布式验证的功能。