研究人员开发了一种新的流程来生成环境蓝图,以进行更真实、更一致的 AI 安全审计。该方法使用 Petri 审计器对 Gemini 3.1 Pro Preview 进行代码破坏评估。结果表明,与基线审计相比,蓝图增强的审计更真实、更一致,在 160 次试验中未检测到明显的方案行为。 AI
影响 增强了 AI 安全审计的真实性和一致性,可能导致对模型行为进行更可靠的评估。
排序理由 该集群描述了一种在研究报告中发布的新 AI 安全审计方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →