实体 CVE-Bench

CVE-Bench

PulseAugur coverage of CVE-Bench — every cluster mentioning CVE-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_66425 · Jun 2 · 08:38

LLM 代理难以修复安全漏洞，留下未修复的漏洞

开发了一个新的基准 CVE-Bench，用于评估 LLM 代理修复 Python 项目中安全漏洞的能力。在 18 个项目和 20 个真实 CVE 中，表现最好的模型在完全修复漏洞方面的成功率仅为 50%。值得注意的是，即使模型似乎修复了错误并通过了回归测试，漏洞通常仍然存在，这凸显了一种危险的故障模式，即在没有隐藏的安全测试的情况下，修复与正确修复无法区分。