PulseAugur
实时 10:07:29
English(EN) From Lab to Reality: A Practical Evaluation of Deep Learning Models and LLMs for Vulnerability Detection

研究发现:大型语言模型难以检测现实世界中的代码漏洞

一篇新近发表在arXiv上的研究评估了深度学习模型和大型语言模型在代码漏洞检测方面的实际有效性。研究发现,包括Claude 3.5 Sonnet、GPT-4o和GPT-5等知名大型语言模型在内的当前模型,在从基准数据集泛化到现实世界场景时存在困难。当在最近修复的Linux内核漏洞的新构建数据集上进行测试时,模型的性能显著下降,凸显了学术评估与实际应用之间的差距。 AI

影响 当前的大型语言模型在代码漏洞检测方面泛化能力较差,表明需要更强大的模型和数据集来应对现实世界的安全应用。

排序理由 该集群包含一篇在新的数据集上评估现有模型的 istudy。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究发现:大型语言模型难以检测现实世界中的代码漏洞

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Chaomeng Lu, Bert Lagaisse ·

    From Lab to Reality: A Practical Evaluation of Deep Learning Models and LLMs for Vulnerability Detection

    arXiv:2512.10485v2 Announce Type: replace-cross Abstract: Vulnerability detection methods based on deep learning (DL) have shown strong performance on benchmark datasets, yet their real-world effectiveness remains underexplored. Recent work suggests that both graph neural network…