English(EN) AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms

新基准揭示AI在验证代码生成方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

一个名为AlgoVeri的新基准已被开发出来，用于评估AI模型在为经典算法生成形式化验证代码方面的性能。该基准在三种语言：Dafny、Verus和Lean中测试模型，揭示了显著的能力差距。虽然Gemini-3 Flash在Dafny中表现出中等成功，但在Verus和Lean中的表现却显著下降，这凸显了在内存约束和显式证明构建方面的挑战。 AI

影响强调了当前AI模型在生成形式化验证代码方面的局限性，为形式化验证工具的未来研究和开发指明了方向。

排序理由该集群包含一篇介绍用于评估AI模型在特定任务上表现的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Haoyu Zhao, Ziran Yang, Jiawei Li, Deyuan He, Zenan Li, Chi Jin, Venugopal V. Veeravalli, Aarti Gupta, Sanjeev Arora · 2026-06-04 04:00

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms

arXiv:2602.09464v2 Announce Type: replace-cross Abstract: Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, but a unified methodology for cross-paradigm evaluation is lacking. Existing benchmar…

报道来源 [1]

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms

相关实体

相关话题