Lean · PulseAugur

新框架 KHA 将 AI 代理的可靠性提升至 100%

一位开发者创建了一个名为 KHA 的框架，该框架基于 Lean 和 Z3 构建，旨在提高 AI 代理的可靠性。据报道，该框架将复杂计算任务（如税务和海关案件）的准确性从约 50% 提高到 100%。开发者已在 GitHub 上免费提供了 KHA 框架。

TOOL · CL_132449 · Jul 8 · 16:41

AI代理使用形式证明解决了9个开放的Erdős数学问题

arXiv上的一项新研究详细介绍了一个名为Lean的AI驱动的形式证明搜索系统，该系统在解决复杂的数学问题方面取得了显著进展。该系统自主证明了9个开放的Erdős问题和44个OEIS猜想，利用编译器验证的证明来增强可靠性，优于自然语言推理。

TOOL · CL_129657 · Jul 7 · 05:39

使用AI证明器在Lean翻译管道中验证Rust代码

研究人员开发了一个将Rust代码翻译成Lean（一种定理证明器）的管道，然后使用AI证明器来验证代码的正确性。该方法旨在利用AI进行形式化验证，以提高软件的可靠性。该经验报告详细介绍了该过程及其在证明Rust程序属性方面的有效性。

TOOL · CL_124964 · Jul 4 · 08:51

Lean 证明助手与 AI 集成，引发进步与担忧

Lean 证明助手在数学界日益普及，部分原因是它能够与 AI 协作。此次集成旨在探索新的研究方向。然而，Lean 的使用及其与 AI 的互动也引起了该领域的担忧。

COMMENTARY · CL_123982 · Jul 3 · 12:32

人工智能安全焦点：形式化方法论文、Anthropic 和 OpenAI 招聘

一篇题为“通过形式化方法实现人工智能安全中的可处理问题”（Tractable Problems in AI Security via Formal Methods）的新立场文件已发布，重点关注人工智能安全方面最小化且无争议的方法，特别是通过加强基础设施来保护模型权重的机密性和完整性。作者还强调了 Anthropic 安全实验室的招聘工作，以及 OpenAI 的“Preparedness”团队可能对形式化方法的兴趣。此外，该帖子还引用了…

TOOL · CL_123111 · Jul 3 · 04:00

新AI系统Aria实现数学定理形式化自动化

研究人员开发了Aria，一个旨在利用大型语言模型改进数学定理自动形式化效率的新系统。Aria采用两阶段的“思想图谱”过程，将陈述分解为依赖图，然后构建形式化。它还包括用于语义正确性检查和从Mathlib获取定义的AriaScorer。评估显示，Aria在ProofNet和FATE-X等基准测试中，尤其是在复杂的代数和同调猜想问题上，显著优于现有方法。

TOOL · CL_122977 · Jul 3 · 04:00

研究人员跨证明助手对乔丹曲线定理进行再形式化

研究人员详细介绍了三种再形式化实例，即形式化证明在不同证明助手之间进行翻译的过程。该研究专门关注乔丹曲线定理的再形式化，成功地将其从Mizar转换为Lean，并将HOL Light转换为Lean和Agda。分析旨在确定影响此类再形式化任务效率和实用性的关键设计选择。

RESEARCH · CL_117485 · Jun 30 · 04:00

精简定理证明基准和RL模型推理中发现的缺陷

研究人员在精简定理证明数据集的正式基准测试中发现了重大缺陷，揭示了数千个问题，包括反例和空泛定理。另一项关于RL训练的精简定理证明器的研究表明，这些模型存在推理时模式崩溃的问题，即增加采样预算并不会带来更多已解决的定理。然而，结构化策略骨架等干预措施可以提高性能，这表明推理时多样性是增强RL训练证明器的关键且独立的维度。

RESEARCH · CL_119413 · Jun 30 · 00:27

新指标揭示AI数学语句形式化差距

研究人员开发了一种新的自然语言到Lean语句形式化评估协议，该协议超越了简单的编译检查。他们的方法结合了Lean编译、跨模型语义判断以及在400个研究生级别数学语句基准上的专家校准。这种方法揭示了编译率与实际忠实度之间存在显著差距，工具增强的代理实现了高编译率但共识忠实度较低。该研究还分解了形式化管道中不同干预措施的影响，发现阐述反馈对有效性至关重要，但也暴露了更多的语义失败，而搜索则提高了基础性和选择性。

TOOL · CL_114951 · Jun 28 · 20:13

人工智能通过形式化验证辅助数学研究

一位研究人员正在探索使用人工智能，特别是 Claude Opus 4.8 和 GPT 5.5 Extra High，进行数学研究，重点关注使用 Lean 进行形式化验证。这种方法旨在模拟人类科学进步和人工智能随时间的改进，解决人工智能的可靠性和道德反馈问题。该过程包括将现有的人工智能对齐研究翻译成逻辑归纳框架，目前重点在于缓慢、审慎地理解数学结果，以避免因人工智能生成复杂数学的能力而产生的自我欺骗。

COMMENTARY · CL_113898 · Jun 27 · 19:40

Neuralese 训练方法可能通过可验证奖励来改善 AI 对齐

“Neuralese”的概念，一种训练 AI 模型的方法，被探讨为一种可能对 AI 对齐有益的方法。该方法利用具有可验证奖励的强化学习 (RLVR) 来优化复杂的推理过程，或“思维链”，这对于先进的 AI 功能至关重要。RLVR 通过奖励可验证的正确输出来使模型能够实现超越人类水平的性能，尤其是在编码和形式数学等领域。

COMMENTARY · CL_113698 · Jun 27 · 13:34

新的评估框架通过改变实现方式而非仅仅是AI模型来测试软件安全

这篇博文提出了一个多维度评估框架，用于评估软件的安全性，特别是在AI辅助开发的环境下。作者建议，与其仅仅改变被测试的AI模型，不如改变其他组件，例如不同的编程语言、形式化验证工具或容器运行时。这种方法旨在通过保持AI能力不变，并针对不同的实现和环境进行测试，从而更全面地理解软件的健壮性。作者举例说明了容器安全评估和压缩算法的形式化验证，认为这些是迈向多维度评估的步骤。

RESEARCH · CL_115237 · Jun 26 · 12:15

新矩阵改进LLM自动形式化错误分析

研究人员引入了一个“信号覆盖矩阵”，以更好地评估大型语言模型（LLM）在自动形式化任务中的性能。该矩阵将错误分为类型正确性和语义等价性两类，超越了单一标量指标。在ProofNet#和MiniF2F-test上使用DeepSeek V4-Pro进行的实验表明，虽然总体真实成功率显著提高，但大部分增长来自于恢复类型级错误，而语义错误的改进较少，甚至出现新的错误。

RESEARCH · CL_111269 · Jun 25 · 01:59

新的LCS-Bench基准挑战AI模型进行理论规模自动形式化

研究人员推出了LCS-Bench，这是一个旨在评估计算机科学逻辑中理论规模自动形式化能力的新基准。该基准使用半自动化代理管道构建，包含327个教科书条目和超过4,076个Lean声明。它旨在解决连贯地翻译数百个相互依赖的定义和定理的挑战，这项任务是当前最先进的模型难以胜任的，在自动形式化任务上的准确率仅为20.1%。

TOOL · CL_118214 · Jun 24 · 00:00

TheoremGraph 通过依赖图连接形式与非形式数学

研究人员开发了 TheoremGraph，一个连接非形式与形式数学的统一依赖图。该系统从 arXiv 论文和 Lean 项目中提取和链接数学陈述，创建了一个全面的知识库。TheoremGraph 使用语义嵌入和 LLM 裁判来识别不同数学领域的关联，旨在改善数学中的搜索、归属和推理。

TOOL · CL_102182 · Jun 21 · 01:31

AI协助数学家将证明转化为形式化语言

数学家们开始使用AI工具将复杂的数学证明转化为计算机可理解的形式化语言，实现了数学家陶哲轩12年前的预测。这一转变旨在通过使计算机能够检查证明来增强数学研究的严谨性和可验证性。

RESEARCH · CL_99600 · Jun 18 · 10:40

Lean Proof Assistant Enhances Reinforcement Learning for Theorem Proving

研究人员开发了一种使用强化学习进行定理证明的新颖方法，集成了 Lean 证明助手以提供详细的、经过验证的反馈。这种方法被称为过程验证强化学习（PVRL），它利用 Lean 提供的超越简单二元成功或失败的细粒度、策略级别信号。通过将这些结构化奖励纳入类似 GRPO 的目标，与仅基于结果的方法相比，该系统在 MiniF2F 和 ProofNet 等基准测试中表现出更高的性能。这项工作表明，符号证明助手可以在训练过程中充当过程级别的奖励预言…

SIGNIFICANT · CL_96858 · Jun 17 · 14:15

Pramaana Labs 获 2700 万美元融资用于 AI 形式验证

Pramaana Labs 已获得 2700 万美元种子轮融资，由 Khosla Ventures 领投，用于开发具有形式验证功能的 AI 系统。该公司旨在提高法律、药物发现和税务准备等高风险领域的可靠性，在这些领域中错误可能导致严重后果。Pramaana 的方法将传统的 LLM 与确定性验证层相结合，利用通常用于数学证明的 LEAN 编程语言的工具，以确保 AI 输出的准确性和可信度。

TOOL · CL_93425 · Jun 16 · 04:00

新的AI基准SorryDB测试现实世界数学形式化

研究人员推出了SorryDB，这是一个新颖的基准，旨在评估AI在Lean数学证明助手完成现实世界形式化任务的能力。与静态基准不同，SorryDB会动态更新GitHub项目中的开放任务，目标是生产更符合社区需求并能处理复杂依赖关系的AI工具。初步评估表明，尽管使用Gemini Flash的代理方法表现最佳，但它并不严格优于其他大型语言模型、专业证明器或精选的Lean策略，这表明当前形式数学的AI方法之间存在互补性。

TOOL · CL_93336 · Jun 16 · 04:00

新的BASE方法将LLM数学推理的形式化成本降低了5倍

研究人员开发了一种名为BASE的新方法，用于使用大型语言模型（LLM）和形式化证明助手Lean来提高数学推理任务中答案选择的效率。BASE通过形式化一个基础候选答案，然后编辑它来推导出其余的候选语句，而不是独立形式化每个答案，从而降低了计算成本。这种方法由一个名为LEANSCRIBE的重写器模型促进，同时提高了选择的准确性，并显著减少了自动形式化器的调用次数，在各种数据集和求解器上实现了帕累托改进。