English(EN) SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

新基准揭示LLM在软件安全任务中的局限性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

一个名为SEC-bench Pro的新基准已被开发出来，用于评估大型语言模型（LLMs）在复杂、长周期的软件安全任务中的能力，例如在真实系统中查找漏洞。该基准包含来自V8和SpiderMonkey的183个已验证漏洞，其中大部分漏洞获得了Google漏洞奖励计划的大额奖励。目前前沿模型在这些任务上的成功率低于40%，凸显了基于LLM的漏洞挖掘在复杂软件安全挑战方面的局限性。 AI

影响强调了当前LLM在复杂软件安全任务中的局限性，表明需要在此领域改进AI代理的能力。

排序理由该集群包含一篇介绍用于评估AI能力的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Hwiwon Lee, Jiawei Liu, Dongjun Kim, Ziqi Zhang, Chunqiu Steven Xia, Lingming Zhang · 2026-05-27 04:00

SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

arXiv:2605.26548v1 Announce Type: cross Abstract: Large language models (LLMs) now support automated software security tasks, including vulnerability discovery and proof-of-concept (PoC) generation. Existing benchmarks do not faithfully evaluate LLMs in real-world bug hunting sce…

报道来源 [1]

SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

相关实体

相关话题