PulseAugur
实时 21:59:47
English(EN) An Empirical Study of Security Calibration in Large Language Models for Code

研究发现:大型语言模型在安全代码生成方面过于自信

一项新的 arXiv 研究调查了大型语言模型(LLMs)在生成代码时的安全校准问题。研究人员评估了 GPT-4o-mini、Gemini-2.0 Flash 和 Qwen3-Coder-Next,发现这些模型经常表现出过度自信,对不安全的代码赋予高置信度。研究还探讨了校准引导的自动化修复,发现在不引入功能回归的情况下修复漏洞方面效果有限。诸如架构门控之类的缓解策略在受控基准测试中提高了校准度,但在实际代码库环境中效果不佳,增加了高置信度漏洞输出的风险。 AI

影响 强调了使用 LLMs 进行安全关键代码生成所带来的潜在风险,以及改进校准的必要性。

排序理由 关于 LLM 安全校准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究发现:大型语言模型在安全代码生成方面过于自信

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Mohammed Latif Siddiq, Md. Nafiu Rahman, Joanna C. S. Santos ·

    An Empirical Study of Security Calibration in Large Language Models for Code

    arXiv:2606.31159v1 Announce Type: cross Abstract: Large Language Models (LLMs) are rapidly transforming software development, yet their use in security-critical contexts raises a key question: do models know when their generated code is insecure? This property, known as calibrati…