PulseAugur
实时 10:59:38
实体 Lean 4 Programming Language

Lean 4 Programming Language

PulseAugur coverage of Lean 4 Programming Language — every cluster mentioning Lean 4 Programming Language across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
37
90 天内 37
发布 · 30天
0
90 天内 0
论文 · 30天
37
90 天内 37
层级分布 · 90 天
主题
情绪 · 30 天

15 天有情绪数据

最近 · 第 1/2 页 · 共 37 条
  1. TOOL · CL_93231 ·

    新研究测试AI证明形式化模型的鲁棒性

    arXiv上的一项新研究评估了证明自动形式化模型的鲁棒性,这些模型将自然语言数学证明翻译成Lean 4等形式化语言。研究人员对非正式证明引入了全局和局部扰动,以测试模型的_一致性_和_忠实性_。评估发现,七个近期模型对全局释义敏感,并且在很大程度上未能准确反映符号或证明步骤的局部变化。

  2. RESEARCH · CL_93172 ·

    新框架认证 AI 生成数学证明的忠实度

    研究人员引入了双向可证性指纹(BPF)框架,旨在认证自动形式化数学陈述的忠实度。该方法解决了翻译后的形式陈述可能可证但与原始自然语言意图在语义上不完全等价的挑战。该框架包括生成反事实探针、用于连续评分的等价性谱、自适应预算分配以及忠实度引导解码的组件。还发布了一个新的基准 DriftBench,包含 2,183 对自然语言/Lean 4 对,用于评估这些方法。

  3. TOOL · CL_84936 ·

    AI辅助下,Lean 4 中形式化统计学习理论

    研究人员使用 Lean 4(一个证明助手)开发了统计学习理论的形式化,为机器学习理论建立严谨的基础。该项目涉及人机协作,AI 代理协助构建了高斯 Lipschitz 集中和 Dudley 熵积分定理等概念的证明。形式化过程还有助于识别和解决现有统计学习理论教科书中的歧义,为未来的研究创建了一个可重用的工具箱。

  4. RESEARCH · CL_86597 ·

    新架构实现世界模型近乎无限的时间一致性

    一篇新研究论文介绍了一个物理基础符号架构(PGSA),它克服了当前统计世界模型的局限性。与需要高斯动力学来实现线性可辨识性和时间一致性的现有模型不同,PGSA 可以在所有物理状态下实现精确的线性可辨识性。这种新架构还提供了近乎无限的时间一致性,这意味着即使对于非高斯系统,其误差也仅受数值精度限制。

  5. RESEARCH · CL_84373 ·

    AI代理可以使用签名压缩进展来实现稳健的内在动机

    一篇新的研究论文提出了一种称为“签名压缩进展”的方法,作为AI代理更稳健的内在动机形式。该方法旨在确保代理的奖励直接与真正的学习和改进挂钩,而不是可利用的指标。该论文提供了正式的证明和实验证据,表明该方法能够抵抗诸如奖励裁剪和易于预测结果的利用等常见故障模式。

  6. TOOL · CL_74387 ·

    LLM在Lean 4中形式化数学证明的评估

    一篇新的研究论文评估了各种大型语言模型(LLM)在使用Lean 4定理证明器生成形式化数学证明方面的性能。该研究在miniF2F和miniCTX数据集的子集上采用了pass@k和refine@k指标。Gemini 3.1 Pro和Claude Opus 4.7表现出最高的成功率,其中Gemini在miniF2F上达到92%,Opus在miniCTX上达到86%。在成本效益方面,NVIDIA Nemotron 3 Super和GPT-O…

  7. TOOL · CL_74336 ·

    开发者使用 AI 对多边形相交算法进行形式化验证

    一位开发者创建了一个经过形式化验证的多边形相交实现,这是矢量图形编辑器中的一项标准功能。该项目利用了 AI 代理,最近的模型能够一步生成算法实现和形式化证明,相比之前的多步流程有了显著改进。算法的正确性由 Lean 证明助手和对简洁规范的人工审查保证,而非仅由 AI 模型保证。

  8. TOOL · CL_68286 ·

    数据集将研究生代数问题形式化以供AI验证

    研究人员开发了Lean-GAP,一个包含430个形式化研究生代数问题的数据集,这些问题源自Dummit和Foote的著作《抽象代数》。该过程涉及一个用于PDF到LaTeX预处理和自动形式化为Lean 4的流水线,但人工监督对验证至关重要。这项工作贡献了一个结构化数据集、一种形式化数学文本的方法,以及对将非正式陈述转化为正式语言的挑战的分析,包括对自动形式化模型的比较。

  9. TOOL · CL_65773 ·

    AI框架使用形式化验证解决数学难题

    研究人员开发了一个新颖的框架,将非正式推理与形式化验证相结合,以解决复杂的数学问题。该系统由一个名为Rethlas的非正式代理和一个名为Archon的正式代理组成,利用定理搜索和自动证明合成来确保机器可检查的正确性。该框架在最少的人工干预下成功解决了一个交换代数领域的开放性问题,并对其证明进行了形式化验证,展示了AI辅助数学发现和协作的有前景的途径。

  10. TOOL · CL_65525 ·

    新的FVSpec基准测试AI在形式化软件验证方面的能力

    研究人员开发了一个名为FVSpec的新基准,用于评估AI模型在形式化软件验证任务上的表现。该基准通过将2700多个现实世界的Python基于属性的测试翻译成Lean 4证明助手语言中的9400多个规范来创建。这个过程涉及对Python语义进行建模和推断逻辑属性,由于依赖类型编程的复杂性,这带来了重大挑战。该项目旨在推进AI辅助形式化验证,这是一个随着AI在软件开发中贡献越来越大而日益重要的领域。

  11. TOOL · CL_65351 ·

    新的EVA方法改进了用于数学验证的LLM奖励建模

    研究人员推出了一种名为期望值对齐(EVA)的新程序,用于训练与大型语言模型在形式化数学验证中使用的奖励模型。EVA通过从模型的token分布中提取连续分数,同时保留离散的文本理由,来解决现有模型中的权衡问题。该方法在名为Leibniz的模型中实现,用于Lean 4形式化验证,与基线方法相比,显示出更少的离散化伪影。

  12. RESEARCH · CL_62835 ·

    AI框架通过新技术提升形式化定理证明能力

    研究人员开发了新的框架,利用大型语言模型增强形式化定理证明能力。Goedel-Architect 采用蓝图生成和精炼策略,使用 DeepSeek-V4-Flash 模型在 MiniF2F-test 和 PutnamBench 等基准测试中取得了最先进的性能。Proof-Refactor 专注于提高 LLM 生成证明的模块化、可读性和可维护性,在 PutnamBench 数据集上表现优于现有基线。另一种方法 Compile to Com…

  13. TOOL · CL_62779 ·

    ProofWala框架赋能多语言定理证明研究

    研究人员开发了ProofWala,一个旨在促进神经方法多语言证明数据合成和定理证明的新框架。该框架包含一个可重用的库,用于与交互式定理证明器(ITPs)进行交互,并支持项目范围内的分析和并行实验。通过在Lean 4和Rocq等不同的ITPs上进行多语言模型训练,该系统展示了改进的跨语言和跨领域迁移能力,在特定数学领域取得了统计学上的显著提升。

  14. TOOL · CL_92405 ·

    New FVSpec Benchmark Tests AI in Formal Software Verification

    Researchers have introduced FVSpec, a new benchmark designed to evaluate AI models and agents in formal software verification tasks. The benchmark involves translating property-based tests from Python into specification…

  15. TOOL · CL_66579 ·

    Lean 4 库提供已验证的金融数学定理

    研究人员使用 Lean 4 证明助手开发了一个全面的金融数学定理库。该库基于 Mathlib 和 BrownianMotion 包,包含二百多个定理,涵盖了从随机微积分到投资组合理论的广泛主题。一个关键特性是其忠实性审计,它精确记录了每个证明所使用的公理,确保了透明度和可验证性。该项目的贡献主要是方法论上的,提供了可重用的、已验证的金融数学基础,而不是新的金融理论。

  16. RESEARCH · CL_56331 ·

    AI agents formalize 26 math textbooks, creating verified library

    Researchers have developed AutoformBot, a multi-agent system that uses LLMs and formal verification tools to translate informal mathematical prose into machine-checked code. This system has been applied to 26 mathematic…

  17. RESEARCH · CL_53591 ·

    新的 Lean 4 定理证明器取得强劲的基准测试结果

    研究人员开发了 MerLean-Prover,一个用于 Lean 4 的端到端定理证明器,可生成可由内核检查的证明。该系统利用一个包含三种代理类型(规划、检查和 Lean)的递归循环,并在 FormalQualBench 和 Putnam2025 等基准测试中展现出强劲的性能。值得注意的是,MerLean-Prover 在 FormalQualBench 上取得了 10/23 的成绩,优于现有的开源基线,并以更少的计算时间成功解决了 …

  18. TOOL · CL_51533 ·

    TorchLean框架在Lean 4定理证明器中形式化神经网络

    研究人员开发了TorchLean,一个在Lean 4定理证明器中形式化神经网络的框架。该系统允许在进行数学证明的同一环境中直接执行和验证神经网络。TorchLean支持各种神经网络组件,包括注意力机制和扩散模型,并提供精确和有限精度张量语义、微分和边界传播的功能。

  19. TOOL · CL_51326 ·

    机器学习泛化界限在 Lean 4 中实现形式化

    研究人员在 Lean 4 证明助手中使用 Rademacher 复杂度形式化了泛化误差界限。这项工作建立在 Mathlib 库中的测度论概率论的基础上。该形式化包括一个经过机械验证的流程,从定义到通过已证明的 McDiarmid 不等式实现高概率一致偏差界限,并应用于线性预测器和 Dudley 型熵积分界限。

  20. TOOL · CL_51062 ·

    Lean 4 证明验证通过证明状态快照加速

    研究人员开发了一种名为证明状态快照的新方法,以显著加快 Lean 4 中自动证明验证的速度。该技术解决了并行策略搜索中重复重建证明状态的低效率问题,这是当前系统的一个瓶颈。通过捕获和重用已阐述的证明状态,新方法提供了显著的实际运行时间加速,尤其是在搜索分支数量增加时。