研究人员开发了一个名为 Wonda 的数据策划管道,以改进用于程序验证的小型语言模型 (SLM) 的训练。该管道对原始验证器输出进行规范化,并使用 LLM 重写和增强不变式,确保可证明的质量。在 Wonda 策划的数据上微调 Qwen3、Llama-3.1 和 Mistral AI 等 SLM,可显著提高不变式正确性和加速率。值得注意的是,一个 4B Qwen3 模型取得了与 GPT-OSS-120B 等更大模型相当的性能,甚至在 InvBench 套件上匹配了 GPT-5.2 的验证时间。 AI
影响 这项研究可能会加速开发和采用更小、更高效的语言模型来执行程序验证等专业任务。
排序理由 该集群包含一篇学术论文,详细介绍了一种用于数据策划的新方法,以提高 SLM 在程序验证任务上的性能。[lever_c_demoted from research: ic=1 ai=1.0]
- GitHub
- GPT-5.2
- GPT-OSS-120B
- Guy Katz
- InvBench
- Llama-3.1
- Mistral AI
- Qwen3
- Small Language Models
- Wonda
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →