SpiderMonkey

实体 SpiderMonkey

SpiderMonkey

PulseAugur coverage of SpiderMonkey — every cluster mentioning SpiderMonkey across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

关系

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_53874 · May 27 · 04:00

新基准揭示LLM在软件安全任务中的局限性

一个名为SEC-bench Pro的新基准已被开发出来，用于评估大型语言模型（LLMs）在复杂、长周期的软件安全任务中的能力，例如在真实系统中查找漏洞。该基准包含来自V8和SpiderMonkey的183个已验证漏洞，其中大部分漏洞获得了Google漏洞奖励计划的大额奖励。目前前沿模型在这些任务上的成功率低于40%，凸显了基于LLM的漏洞挖掘在复杂软件安全挑战方面的局限性。