PulseAugur
实时 15:27:00
English(EN) Theory-Scale Auto-Formalization of Logics for Computer Science

新的LCS-Bench基准挑战AI模型进行理论规模自动形式化

研究人员推出了LCS-Bench,这是一个旨在评估计算机科学逻辑中理论规模自动形式化能力的新基准。该基准使用半自动化代理管道构建,包含327个教科书条目和超过4,076个Lean声明。它旨在解决连贯地翻译数百个相互依赖的定义和定理的挑战,这项任务是当前最先进的模型难以胜任的,在自动形式化任务上的准确率仅为20.1%。 AI

影响 该基准有望推动AI在处理复杂逻辑推理和形式化验证任务方面的能力。

排序理由 该集群包含一篇介绍AI评估新基准的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的LCS-Bench基准挑战AI模型进行理论规模自动形式化

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Yuming Feng, Frederick Pu, One An, Osbert Bastani, Li Zhang, Jiani Huang, Xujie Si, Ziyang Li ·

    Theory-Scale Auto-Formalization of Logics for Computer Science

    arXiv:2606.26525v1 Announce Type: new Abstract: Auto-formalization is critical for scalable formal verification, but existing progress largely focuses on isolated statements, while theory-scale auto-formalization, which coherently translates hundreds of interdependent definitions…

  2. arXiv cs.LG TIER_1 English(EN) · Ziyang Li ·

    面向计算机科学的逻辑的理论规模自动形式化

    Auto-formalization is critical for scalable formal verification, but existing progress largely focuses on isolated statements, while theory-scale auto-formalization, which coherently translates hundreds of interdependent definitions, lemmas, and theorems, remains open due to chal…