一个名为SEC-bench Pro的新基准已被开发出来,用于评估大型语言模型(LLMs)在复杂、长周期的软件安全任务中的能力,例如在真实系统中查找漏洞。该基准包含来自V8和SpiderMonkey的183个已验证漏洞,其中大部分漏洞获得了Google漏洞奖励计划的大额奖励。目前前沿模型在这些任务上的成功率低于40%,凸显了基于LLM的漏洞挖掘在复杂软件安全挑战方面的局限性。 AI
影响 强调了当前LLM在复杂软件安全任务中的局限性,表明需要在此领域改进AI代理的能力。
排序理由 该集群包含一篇介绍用于评估AI能力的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- ClaudeCode
- Codex
- Google Vulnerability Reward Program
- Kimi-K2.6
- Large language models
- SEC-bench Pro
- SpiderMonkey
- V8
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →