PulseAugur
实时 18:17:46
实体 NL2VC-60

NL2VC-60

PulseAugur coverage of NL2VC-60 — every cluster mentioning NL2VC-60 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_05024 ·

    AI 模型在形式化代码生成中实现高验证成功率

    研究人员开发了一个新的数据集 NL2VC-60,包含 60 个算法问题,旨在帮助从自然语言生成已验证的代码。他们评估了七个开源大语言模型(LLM),采用了多种提示策略,包括利用 Dafny 验证器反馈的自修复提示。这种方法显著提高了性能,其中 Gemma 4-31B 的验证成功率达到了 90.91%,而 GPT-OSS 120B 在引导反馈下达到了 81.82%。