实体 Auditing Sabotage Bench

Auditing Sabotage Bench

PulseAugur coverage of Auditing Sabotage Bench — every cluster mentioning Auditing Sabotage Bench across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1
模型发布 1

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_07032 · Apr 28 · 04:00

AI安全研究面临被破坏风险，审计员未能发现漏洞

研究人员开发了一个名为Auditing Sabotage Bench的新基准，用于测试AI模型和人类检测机器学习研究代码库中细微破坏的能力。该基准包含九个机器学习代码库，其中包含故意设计的有缺陷的变体，旨在产生误导性结果。在测试中，即使是Gemini 3.1 Pro等先进模型也难以可靠地识别这些破坏，检测准确率仅为77%，修复成功率仅为42%。

AI安全研究面临被破坏风险，审计员未能发现漏洞