研究人员推出了LCS-Bench,这是一个旨在评估计算机科学逻辑中理论规模自动形式化能力的新基准。该基准使用半自动化代理管道构建,包含327个教科书条目和超过4,076个Lean声明。它旨在解决连贯地翻译数百个相互依赖的定义和定理的挑战,这项任务是当前最先进的模型难以胜任的,在自动形式化任务上的准确率仅为20.1%。 AI
影响 该基准有望推动AI在处理复杂逻辑推理和形式化验证任务方面的能力。
排序理由 该集群包含一篇介绍AI评估新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →