研究人员开发了一个名为Auditing Sabotage Bench的新基准,用于测试AI模型和人类检测机器学习研究代码库中细微破坏的能力。该基准包含九个机器学习代码库,其中包含故意设计的有缺陷的变体,旨在产生误导性结果。在测试中,即使是Gemini 3.1 Pro等先进模型也难以可靠地识别这些破坏,检测准确率仅为77%,修复成功率仅为42%。 AI
影响 该基准突显了AI驱动研究的潜在风险,以及确保AI安全需要强大的审计工具。
排序理由 该集群描述了在arXiv上发布的一个新的学术基准和论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →