English(EN) DualGauge: Automated Joint Security-Functionality Benchmarking of Specification-Only Code Generation by LLMs and Coding Agents

新框架揭示LLM代码生成的安全缺陷

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一个名为DualGauge的新框架已被开发出来，用于自动基准测试LLM和编码代理生成的代码的安全性和功能性。配套的DualGauge-Bench数据集包含307个任务，配有功能和安全测试对。对10个LLM和3个编码代理的评估显示，即使是最好的模型在联合安全-功能成功方面也存在困难，常常在输出契约边界失败或防护不足。模型规模、量化或迭代脚手架等因素并未可靠地提高性能，这表明安全且正确的代码生成并非通用编码能力的涌现属性。 AI

影响揭示了LLM生成代码中显著的安全和功能差距，表明当前模型对于安全关键型应用程序不可靠。

排序理由该集群包含一篇学术论文，详细介绍了用于评估LLM生成代码的新框架和基准。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Rupam Patir, Keyan Guo, Suvadra Barua, Abhijeet Pathak, Dinesh Gudimetla, Jiawei Guo, Hongxin Hu, Haipeng Cai · 2026-06-16 04:00

DualGauge: Automated Joint Security-Functionality Benchmarking of Specification-Only Code Generation by LLMs and Coding Agents

arXiv:2511.20709v2 Announce Type: replace-cross Abstract: Large language models (LLMs) and LLM-based coding agents are now used to generate code from natural-language specifications, yet ensuring such code is both functionally correct and secure remains a challenge. We present Du…

报道来源 [1]

DualGauge: Automated Joint Security-Functionality Benchmarking of Specification-Only Code Generation by LLMs and Coding Agents

相关实体

相关话题