PulseAugur
实时 08:01:38
English(EN) DualGauge: Automated Joint Security-Functionality Benchmarking of Specification-Only Code Generation by LLMs and Coding Agents

新框架揭示LLM代码生成的安全缺陷

一个名为DualGauge的新框架已被开发出来,用于自动基准测试LLM和编码代理生成的代码的安全性和功能性。配套的DualGauge-Bench数据集包含307个任务,配有功能和安全测试对。对10个LLM和3个编码代理的评估显示,即使是最好的模型在联合安全-功能成功方面也存在困难,常常在输出契约边界失败或防护不足。模型规模、量化或迭代脚手架等因素并未可靠地提高性能,这表明安全且正确的代码生成并非通用编码能力的涌现属性。 AI

影响 揭示了LLM生成代码中显著的安全和功能差距,表明当前模型对于安全关键型应用程序不可靠。

排序理由 该集群包含一篇学术论文,详细介绍了用于评估LLM生成代码的新框架和基准。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Rupam Patir, Keyan Guo, Suvadra Barua, Abhijeet Pathak, Dinesh Gudimetla, Jiawei Guo, Hongxin Hu, Haipeng Cai ·

    DualGauge: Automated Joint Security-Functionality Benchmarking of Specification-Only Code Generation by LLMs and Coding Agents

    arXiv:2511.20709v2 Announce Type: replace-cross Abstract: Large language models (LLMs) and LLM-based coding agents are now used to generate code from natural-language specifications, yet ensuring such code is both functionally correct and secure remains a challenge. We present Du…