实体 Lean4

Lean4

PulseAugur coverage of Lean4 — every cluster mentioning Lean4 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_104772 · Jun 20 · 04:10

新框架ForEx验证LLM在逻辑谬误检测中的推理过程

研究人员开发了ForEx，一个新颖的框架，旨在形式化验证大型语言模型（LLMs）在检测逻辑谬误过程中的推理。该系统将LLM的解释翻译成Lean4，一种形式化验证语言，以检查推理是否可以从编码的前提中推导出来，而不仅仅是评估原始论证的逻辑有效性。使用LOGIC-Climate数据集进行的实验显示，虽然超过90%的LLM输出可以被翻译成可验证的形式推理链，但与人类标注的一致性仅约为20%。这突显了形式可推导性与人类对齐推理之间存在的显著差…
RESEARCH · CL_93172 · Jun 15 · 10:45

新框架认证 AI 生成数学证明的忠实度

研究人员引入了双向可证性指纹（BPF）框架，旨在认证自动形式化数学陈述的忠实度。该方法解决了翻译后的形式陈述可能可证但与原始自然语言意图在语义上不完全等价的挑战。该框架包括生成反事实探针、用于连续评分的等价性谱、自适应预算分配以及忠实度引导解码的组件。还发布了一个新的基准 DriftBench，包含 2,183 对自然语言/Lean 4 对，用于评估这些方法。
RESEARCH · CL_62715 · Jun 1 · 04:00

LLM针对Lean中的高效形式定理证明进行了优化

两篇新研究论文探讨了在Lean环境中提高大型语言模型（LLM）在形式定理证明中的效率和有效性的方法。第一篇论文介绍了一种动作路由代理，该代理通过使用编译器反馈来指导搜索并降低计算成本，从而优化成本-质量权衡。第二篇论文提出了一种“反馈蒸馏”训练方法，该方法利用语言模型的反馈来改进令牌级别的监督和探索，在生成多样化且成功的证明轨迹方面优于传统的强化学习技术。
RESEARCH · CL_79513 · May 29 · 00:00

新基准评估LLM的数学推理和证明验证能力

研究人员引入了新的基准和评估方法来评估大型语言模型的数学推理能力。ComBench侧重于奥林匹克级别的组合数学，区分证明推理和构造性实现，并发现即使是顶级模型也难以应对这些复杂任务。另一种方法TheoremBench使用Lean4语言评估LLM在形式数学中的定理证明能力，强调需要超越竞赛式问题来评估模型在更长、依赖性更强的数学发展中的表现。此外，一种用于研究级证明的严格步骤级验证方法旨在通过仔细检查每个推理步骤来解决LLM的不可靠性问题。

新框架ForEx验证LLM在逻辑谬误检测中的推理过程

新框架认证 AI 生成数学证明的忠实度

LLM针对Lean中的高效形式定理证明进行了优化

新基准评估LLM的数学推理和证明验证能力