English(EN) An Empirical Study of Security Calibration in Large Language Models for Code

研究发现：大型语言模型在安全代码生成方面过于自信

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

一项新的 arXiv 研究调查了大型语言模型（LLMs）在生成代码时的安全校准问题。研究人员评估了 GPT-4o-mini、Gemini-2.0 Flash 和 Qwen3-Coder-Next，发现这些模型经常表现出过度自信，对不安全的代码赋予高置信度。研究还探讨了校准引导的自动化修复，发现在不引入功能回归的情况下修复漏洞方面效果有限。诸如架构门控之类的缓解策略在受控基准测试中提高了校准度，但在实际代码库环境中效果不佳，增加了高置信度漏洞输出的风险。 AI

影响强调了使用 LLMs 进行安全关键代码生成所带来的潜在风险，以及改进校准的必要性。

排序理由关于 LLM 安全校准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Mohammed Latif Siddiq, Md. Nafiu Rahman, Joanna C. S. Santos · 2026-07-01 04:00

An Empirical Study of Security Calibration in Large Language Models for Code

arXiv:2606.31159v1 Announce Type: cross Abstract: Large Language Models (LLMs) are rapidly transforming software development, yet their use in security-critical contexts raises a key question: do models know when their generated code is insecure? This property, known as calibrati…

报道来源 [1]

An Empirical Study of Security Calibration in Large Language Models for Code

相关实体

相关话题