实体 DualGauge-Bench

DualGauge-Bench

PulseAugur coverage of DualGauge-Bench — every cluster mentioning DualGauge-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_93462 · Jun 16 · 04:00

新框架揭示LLM代码生成的安全缺陷

一个名为DualGauge的新框架已被开发出来，用于自动基准测试LLM和编码代理生成的代码的安全性和功能性。配套的DualGauge-Bench数据集包含307个任务，配有功能和安全测试对。对10个LLM和3个编码代理的评估显示，即使是最好的模型在联合安全-功能成功方面也存在困难，常常在输出契约边界失败或防护不足。模型规模、量化或迭代脚手架等因素并未可靠地提高性能，这表明安全且正确的代码生成并非通用编码能力的涌现属性。