English(EN) Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks

研究发现，前沿大语言模型在网络安全任务上表现不佳

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-22 05:24

一篇新的研究论文评估了前沿大语言模型在网络安全任务上的就绪程度，发现通用模型在漏洞检测和安全测试方面都存在困难。该研究测试了 GPT-5.4 和 Claude Opus 4.6 等模型，结果显示在白盒检测中误报率很高，在黑盒测试中真实覆盖率很低。然而，领域专业化模型显示出显著更高的检测率，这表明针对性的方法和数据比单纯的模型规模对于网络安全应用更为关键。 AI

影响表明在有效的由人工智能驱动的网络安全方面，专业化模型和方法比仅仅扩大通用大语言模型的规模更重要。

排序理由该集群包含一篇评估大语言模型在特定领域能力的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Vivek Dahiya, Sunny Nehra, Vipul Dholariya, Bhavik Shangari, Chandra Khatri · 2026-05-25 04:00

前沿大语言模型已准备好应对网络安全吗？来自双模漏洞基准的双重基础模型的证据

arXiv:2605.23243v1 Announce Type: cross Abstract: We evaluate whether frontier LLMs are ready for cybersecurity through a dual-mode benchmark: white-box function-level vulnerability detection (VulnLLM-R, across C/Java/Python) and black-box web application security testing (five p…
arXiv cs.AI TIER_1 English(EN) · Chandra Khatri · 2026-05-22 05:24

前沿大语言模型已准备好应对网络安全吗？来自双模漏洞基准的双模基础模型的证据

We evaluate whether frontier LLMs are ready for cybersecurity through a dual-mode benchmark: white-box function-level vulnerability detection (VulnLLM-R, across C/Java/Python) and black-box web application security testing (five production-style applications with 118 ground-truth…

报道来源 [2]

前沿大语言模型已准备好应对网络安全吗？来自双模漏洞基准的双重基础模型的证据

前沿大语言模型已准备好应对网络安全吗？来自双模漏洞基准的双模基础模型的证据

相关实体

相关话题