PulseAugur
实时 15:27:39
English(EN) SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

新基准揭示LLM在软件安全任务中的局限性

一个名为SEC-bench Pro的新基准已被开发出来,用于评估大型语言模型(LLMs)在复杂、长周期的软件安全任务中的能力,例如在真实系统中查找漏洞。该基准包含来自V8和SpiderMonkey的183个已验证漏洞,其中大部分漏洞获得了Google漏洞奖励计划的大额奖励。目前前沿模型在这些任务上的成功率低于40%,凸显了基于LLM的漏洞挖掘在复杂软件安全挑战方面的局限性。 AI

影响 强调了当前LLM在复杂软件安全任务中的局限性,表明需要在此领域改进AI代理的能力。

排序理由 该集群包含一篇介绍用于评估AI能力的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准揭示LLM在软件安全任务中的局限性

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Hwiwon Lee, Jiawei Liu, Dongjun Kim, Ziqi Zhang, Chunqiu Steven Xia, Lingming Zhang ·

    SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

    arXiv:2605.26548v1 Announce Type: cross Abstract: Large language models (LLMs) now support automated software security tasks, including vulnerability discovery and proof-of-concept (PoC) generation. Existing benchmarks do not faithfully evaluate LLMs in real-world bug hunting sce…