PulseAugur
实时 09:28:04
实体 DualGauge-Bench

DualGauge-Bench

PulseAugur coverage of DualGauge-Bench — every cluster mentioning DualGauge-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93462 ·

    新框架揭示LLM代码生成的安全缺陷

    一个名为DualGauge的新框架已被开发出来,用于自动基准测试LLM和编码代理生成的代码的安全性和功能性。配套的DualGauge-Bench数据集包含307个任务,配有功能和安全测试对。对10个LLM和3个编码代理的评估显示,即使是最好的模型在联合安全-功能成功方面也存在困难,常常在输出契约边界失败或防护不足。模型规模、量化或迭代脚手架等因素并未可靠地提高性能,这表明安全且正确的代码生成并非通用编码能力的涌现属性。