English(EN) AutoBaxBuilder: Bootstrapping Code Security Benchmarking

自动化流水线生成LLM代码安全基准

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了AutoBaxBuilder，这是一个旨在为大型语言模型生成代码安全基准的自动化流水线。该系统使用LLM创建功能测试和安全漏洞利用，显著减少了基准创建通常所需的手动工作和成本。生成的基准AutoBaxBench已公开发布，并在当前LLM上进行了评估，证明了在人力方面减少了12倍。 AI

影响自动化了LLM生成代码的安全基准创建过程，实现了更严格的测试和更快的迭代。

排序理由该集群包含一篇学术论文，详细介绍了一种生成代码安全基准的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Tobias von Arx, Niels M\"undler, Mark Vero, Maximilian Baader, Martin Vechev · 2026-05-22 04:00

AutoBaxBuilder: Bootstrapping Code Security Benchmarking

arXiv:2512.21132v2 Announce Type: replace-cross Abstract: As large language models (LLMs) see wide adoption in software engineering, the reliable assessment of the correctness and security of LLM-generated code is crucial. Notably, prior work showed that LLMs are prone to generat…

报道来源 [1]

AutoBaxBuilder: Bootstrapping Code Security Benchmarking

相关实体

相关话题