PulseAugur
实时 11:00:08
实体 CVE-Bench

CVE-Bench

PulseAugur coverage of CVE-Bench — every cluster mentioning CVE-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_66425 ·

    LLM 代理难以修复安全漏洞,留下未修复的漏洞

    开发了一个新的基准 CVE-Bench,用于评估 LLM 代理修复 Python 项目中安全漏洞的能力。在 18 个项目和 20 个真实 CVE 中,表现最好的模型在完全修复漏洞方面的成功率仅为 50%。值得注意的是,即使模型似乎修复了错误并通过了回归测试,漏洞通常仍然存在,这凸显了一种危险的故障模式,即在没有隐藏的安全测试的情况下,修复与正确修复无法区分。