Lean 4 Programming Language

腾讯混元AI解决50年数学难题，为AI4S招聘

腾讯混元AI在解决一个悬而未决约50年的数学问题上取得了重大突破。该AI代理名为Hyra，由Hy3模型驱动，不仅找到了解决方案，还展示了一种持续扩展解决方案的方法，接近理论极限。这一成就是腾讯混元更广泛地推动AI for Science（AI4S）的一部分，团队目前正在积极招聘人才，以进一步发展AI在科学研究中的作用，旨在建立一个协作的

TOOL · CL_171877 · Jul 30 · 04:00

Graph Neural Network explanations lack canonicality due to input symmetries

一篇新研究论文探讨了解释图神经网络（GNN）中的一个根本性问题，特别是它们的解释如何因输入对称性而变得非规范化。研究强调，基于梯度的GNN解释器会为化学等价的原子分配相同的归因分数，但最终报告的解释，例如top-k边，可以根据数组排序任意偏向其中一个。这种任意性是一种结构性障碍，对于像Mutagenicity这样存在常见对称性的数据集尤其成问题。

TOOL · CL_169639 · Jul 29 · 04:00

新的编程语言翻译演算关注答案的可信度

研究人员开发了一种新的演算，用于分析编程语言之间的翻译，重点关注从这些翻译中得出的答案的可信度。该系统将翻译建模为一个具有不同可信度级别的图，允许可组合的契约来指定保证、方向和可观察数据。该系统的核心在 Lean 4 中进行了机械化，其实现名为 hurdy-gurdy，在两个层面运行：一个使用层面供 LLM 生成携带证据的答案，一个演化层面用于管理图的增长。该架构旨在通过记录未解决的问题和注册新的翻译来持续提高保真度，2026 年 7…

TOOL · CL_168641 · Jul 28 · 13:07

AI 生成的证明验证 3D 网格交叉代码

一位开发者使用 Lean 4 编程语言创建了一个形式化验证的 3D 构造实体几何 (CSG) 网格交叉操作的实现。该实现通过依赖 AI 生成超过 60,000 行 Lean 证明来最大限度地减少人工审查，然后由 Lean 系统进行检查。虽然比最先进的方法慢得多，但重点是通过形式化验证来保证正确性，而不是性能。

TOOL · CL_167623 · Jul 28 · 04:00

新理论探讨量化神经网络计算中的深度与精度权衡

一篇新的研究论文探讨了量化神经网络计算的理论极限，研究了模型深度增加何时可以弥补数值精度降低。该研究对量化残差系统进行建模，并分析了它们的无限深度行为，基于声明的低比特运算库建立了性能的结构性下限。研究还考察了执行算术，如全状态写回或增量误差反馈，如何影响这些极限。提供了配套软件和使用Lean 4编程语言进行的形式化验证来支持研究结果。

TOOL · CL_167604 · Jul 28 · 04:00

学习干预增强 Lean 4 证明

研究人员开发了一种将学习干预集成到 Lean 4 证明器 \grind{} 策略中的方法。该方法仅在标准的 \grind{} 失败后调用学习启发式方法，确保已找到的证明不会丢失。将其应用于成本感知 {e}match 过滤和前瞻步骤，该方法提高了问题解决率和速度，并证明了其他原本会超时的定理。研究还发现，基于特征静态预测案例拆分是无效的，这表明在与可靠的符号回退配对时，学习最有利于优化证明中的有界搜索。

TOOL · CL_167545 · Jul 28 · 04:00

LLM 生成的 ARCH HDL 可验证浮点类型

研究人员为 ARCH 硬件描述语言开发并验证了浮点数据类型，该类型专为语言模型生成而设计。该系统确保了可综合的 SystemVerilog、SMT-LIB 和 Lean 4 证明模型在比较、转换和算术运算等运算符之间的一致性。对较简单的运算符进行了详尽的验证，而复杂的基于乘法的运算则根据四舍五入到最近偶数的规范证明了其正确性，并针对性能和流水线化进行了优化。

COMMENTARY · CL_162840 · Jul 25 · 10:04

关于信任AI生成的Lean 4形式化证明的争论出现

Lean 4编程语言中AI生成形式化证明的可靠性正受到质疑。Math Stack Exchange上的一个讨论探讨了这些证明是否可以被信任，并强调了对其准确性和可验证性的潜在担忧。

RESEARCH · CL_154164 · Jul 21 · 04:00

AI 通过新工具和基准推动形式化证明系统发展 · 跟踪 4 个来源

研究人员为形式化定理证明开发了新工具和基准，该领域与 AI 的相关性日益增强。一篇论文详细介绍了一个用于 Event-B 的交互式序列证明器，该证明器用 Prolog 编码，在教学和证明分析方面具有优势。另一篇论文介绍了 ProB（一个基于 Prolog 的模型检查器）的扩展，用于动画和可视化 Prolog 转换系统，并应用于游戏策略评估和教学。第三项贡献引入了 ITPEval，这是第一个用于在不同交互式定理证明器 (ITP) 之间翻…

TOOL · CL_154036 · Jul 21 · 04:00

新研究探讨神经网络中的无限维零空间

Sho Sonoda 在 arXiv 上发表的一篇新论文探讨了连续宽度深度双层全连接神经网络中无限维零空间的存在、结构和作用。该研究介绍了一种求解神经网络方程的直接方法，确定了一个唯一的最小范数参数分布，并描述了加性参数扰动如何揭示编码在零空间中的信息。论文还包含其主要结果的 Lean 4 蓝图。

TOOL · CL_147899 · Jul 17 · 04:00

新AI系统MathCoPilot助力数学家进行形式化证明生成

研究人员推出MathCoPilot，一个旨在促进数学家与AI代理在数学研究中建立共生关系的交互式系统。该系统允许数学家指导证明的高层方向，而AI代理则使用Lean 4编程语言处理详细的形式化和验证工作。一项使用MathCoPilot进行的比较研究评估了Gemini-3.1 Pro、GPT-5.4和Claude Opus 4.7在形式化数学基准测试中的表现，结果显示，尽管当前的LLM能够处理本科水平的问题，但它们在需要深入数学理解的领域…

TOOL · CL_146685 · Jul 16 · 00:00

Apple ML Research 推出用于大型数据的快速交互式证明

Apple Machine Learning Research 发表了一篇论文，详细介绍了“Doubly Sub-linear Interactive Proofs of Proximity”（dsIPPs）。这些证明允许通过仅读取大型输入的一小部分来实现超快速生成，并且近似验证速度更快。该研究为可由恒定宽度单次读取的不可知分支程序决定的属性构建了这样的证明系统，并探讨了用于证明关于输入汉明权重和图双向性的近似断言的应用。

RESEARCH · CL_145636 · Jul 15 · 08:59

新理论将JEPA世界模型与SIGReg目标下的主动推理联系起来

一篇新的理论论文提出，当SIGReg目标用作联合嵌入预测架构（JEPA）中的反崩溃正则化器时，它可以作为主动推理（AIF）的有效变分自由能。该研究将四种非对比正则化器（VICReg、LogDet、PairDist和SIGReg）归类到熵估计器层次结构中，展示了SIGReg如何消除先验失校差距。这使得JEPA目标成为一个精确的信息瓶颈和AIF实用价值的代理，而其他正则化器则留下不可约项。

TOOL · CL_143463 · Jul 15 · 01:42

AI系统'Starfleet'使用Lean 4解决数学问题

一个名为'Starfleet'的新AI系统已被开发出来，用于解决复杂的数学问题，包括Erdős提出的问题。该系统利用Lean 4编程语言，并被幽默地描述为一个需要2000个vCPU的桌面应用程序，让人联想到《星际迷航》。

TOOL · CL_139570 · Jul 13 · 04:00

AI辅助的Vlasov方程形式化已在arXiv上发表

研究人员使用一个由数学家在Lean 4证明助手指导下的AI系统，正式化了Vlasov方程的均场推导。这个过程被构建为一个策略游戏，涉及将LaTeX文档转换为可验证的Lean代码，AI在人类指导下执行任务。该形式化成功认证了非线性Vlasov方程的存在性、唯一性和稳定性估计，其中最优传输机制被开发为一个可重用组件，与Mathlib兼容。

RESEARCH · CL_139177 · Jul 10 · 17:28

Lean-QIT 使用 Lean 4 库正式化量子信息理论 · 跟踪 2 个来源

研究人员开发了 Lean-QIT，一个用于 Lean 4 编程语言的新库，旨在为量子信息理论 (QIT) 创建一个正式的基础设施。该库为定义量子态、量子信道、量子码和性能标准提供了机器可检查的框架。使用 Lean-QIT，该团队已成功形式化了 QIT 中的关键定理，包括 Schumacher 的量子源编码定理和 Holevo--Schumacher--Westmoreland 经典容量定理。该项目旨在为量子信息中的 AI 辅助形式化和…

TOOL · CL_131476 · Jul 8 · 04:00

Lean-Quantum库借助AI辅助形式化量子信息理论

研究人员开发了一个名为Lean-Quantum的新Lean 4库，旨在协助量子信息理论的形式化。该库为有限维量子力学提供了一个强大的、与基无关的框架，并与Mathlib兼容。其能力的一个关键演示是形式化了夹层Rényi相对熵的数据处理不等式（DPI），这是量子信息中的一个基本结果。该项目旨在为未来该领域的AI辅助研究提供机器可验证的基础。

RESEARCH · CL_131248 · Jul 7 · 10:02

新统计方法在分类准确性上优于QDA和GAM

一篇新研究论文介绍了一种用于椭圆马氏判别分析的闭式分数径向链接，旨在提高二元分类准确性。所提出的方法推导了一个贝叶斯径向链接族，并使用分数幂随机多项式投影进行估计，为样条调优提供了一种替代方案。该方法在包括金融数据和乳腺癌等医学数据集在内的各种基准测试中，已证明与QDA和全局GAM等现有方法相比，具有竞争力或更优越的性能。

RESEARCH · CL_131304 · Jul 7 · 00:00

AI代理解决复杂数学问题，树立新的研究基准 · 追踪8个来源

研究人员正在开发能够解决复杂数学问题的先进AI代理，拓展自动化推理的边界。ProofCouncil和OpenProver等系统在解决开放性数学问题和生成形式化证明方面展现出显著能力，其中ProofCouncil在涉及10个现实世界问题的挑战中取得了显著成功。IMProofBench和MIRA-Math等新基准支持了这些努力，这些基准旨在严格评估LLM在研究级数学任务上的表现以及它们请求必要信息的能力。

RESEARCH · CL_128518 · Jul 5 · 22:45

研究发现：LLM 在经过验证的数学结构上出现路由失败

一项新研究调查了大型语言模型（LLM）在处理经过形式验证的代数结构时出现的路由失败问题。研究发现，在盲测条件下，GPT-OSS 120B 的模板准确率为 80.3%，Llama 3.3-70B 的准确率为 68.2%。提供“Lean verdict/witness cue”显著提高了两个模型的准确率，GPT-OSS 120B 达到 90.9%，Llama 3.3-70B 达到 81.8%。研究确定了 CRT 和环等价之间的常见错误路由…