一个名为DualGauge的新框架已被开发出来,用于自动基准测试LLM和编码代理生成的代码的安全性和功能性。配套的DualGauge-Bench数据集包含307个任务,配有功能和安全测试对。对10个LLM和3个编码代理的评估显示,即使是最好的模型在联合安全-功能成功方面也存在困难,常常在输出契约边界失败或防护不足。模型规模、量化或迭代脚手架等因素并未可靠地提高性能,这表明安全且正确的代码生成并非通用编码能力的涌现属性。 AI
影响 揭示了LLM生成代码中显著的安全和功能差距,表明当前模型对于安全关键型应用程序不可靠。
排序理由 该集群包含一篇学术论文,详细介绍了用于评估LLM生成代码的新框架和基准。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →