开发了一个新的基准 CVE-Bench,用于评估 LLM 代理修复 Python 项目中安全漏洞的能力。在 18 个项目和 20 个真实 CVE 中,表现最好的模型在完全修复漏洞方面的成功率仅为 50%。值得注意的是,即使模型似乎修复了错误并通过了回归测试,漏洞通常仍然存在,这凸显了一种危险的故障模式,即在没有隐藏的安全测试的情况下,修复与正确修复无法区分。 AI
影响 LLM 代理在可靠修复安全漏洞方面显示出显著的局限性,表明在安全关键型应用程序中部署之前需要进行更严格的测试和开发。
排序理由 该集群描述了一个新的基准和对 LLM 代理在特定任务上的评估,这属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →