一个名为 Snyk VulnBench JS 1.0 的新基准测试已被开发出来,用于评估大型语言模型 (LLM) 安全审查的可重复性。该基准测试发现,虽然 LLM 的发现结果在不同运行之间可能存在显著差异,但与参考匹配的发现结果显示出更大的稳定性。研究表明,将 agentic LLM 安全审查与 Snyk Code 等确定性静态应用程序安全测试 (SAST) 工具相结合,比单独依赖任何一种方法都能提供更稳健的解决方案。 AI
影响 强调了在 AI 辅助代码安全中采用混合方法的需求,将 LLM 与传统的 SAST 工具相结合以提高可靠性。
排序理由 该集群包含一篇详细介绍新基准及其发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →