PulseAugur
实时 10:53:36
实体 Auditing Sabotage Bench

Auditing Sabotage Bench

PulseAugur coverage of Auditing Sabotage Bench — every cluster mentioning Auditing Sabotage Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_07032 ·

    AI安全研究面临被破坏风险,审计员未能发现漏洞

    研究人员开发了一个名为Auditing Sabotage Bench的新基准,用于测试AI模型和人类检测机器学习研究代码库中细微破坏的能力。该基准包含九个机器学习代码库,其中包含故意设计的有缺陷的变体,旨在产生误导性结果。在测试中,即使是Gemini 3.1 Pro等先进模型也难以可靠地识别这些破坏,检测准确率仅为77%,修复成功率仅为42%。