一篇新近发表在arXiv上的研究评估了深度学习模型和大型语言模型在代码漏洞检测方面的实际有效性。研究发现,包括Claude 3.5 Sonnet、GPT-4o和GPT-5等知名大型语言模型在内的当前模型,在从基准数据集泛化到现实世界场景时存在困难。当在最近修复的Linux内核漏洞的新构建数据集上进行测试时,模型的性能显著下降,凸显了学术评估与实际应用之间的差距。 AI
影响 当前的大型语言模型在代码漏洞检测方面泛化能力较差,表明需要更强大的模型和数据集来应对现实世界的安全应用。
排序理由 该集群包含一篇在新的数据集上评估现有模型的 istudy。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →