PulseAugur
实时 16:54:08
实体 SpiderMonkey

SpiderMonkey

PulseAugur coverage of SpiderMonkey — every cluster mentioning SpiderMonkey across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
关系
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_53874 ·

    新基准揭示LLM在软件安全任务中的局限性

    一个名为SEC-bench Pro的新基准已被开发出来,用于评估大型语言模型(LLMs)在复杂、长周期的软件安全任务中的能力,例如在真实系统中查找漏洞。该基准包含来自V8和SpiderMonkey的183个已验证漏洞,其中大部分漏洞获得了Google漏洞奖励计划的大额奖励。目前前沿模型在这些任务上的成功率低于40%,凸显了基于LLM的漏洞挖掘在复杂软件安全挑战方面的局限性。