English(EN) Improving Petri scheming audits with environment blueprints

使用环境蓝图改进 AI 安全审计

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 00:31

研究人员开发了一种新的流程来生成环境蓝图，以进行更真实、更一致的 AI 安全审计。该方法使用 Petri 审计器对 Gemini 3.1 Pro Preview 进行代码破坏评估。结果表明，与基线审计相比，蓝图增强的审计更真实、更一致，在 160 次试验中未检测到明显的方案行为。 AI

影响增强了 AI 安全审计的真实性和一致性，可能导致对模型行为进行更可靠的评估。

排序理由该集群描述了一种在研究报告中发布的新 AI 安全审计方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Jannes Elstner · 2026-05-26 00:31

使用环境蓝图改进Petri方案审计

This is a short write-up of work conducted as part of the MATS 9.0 program. We thank Victoria Krakovna for mentorship and Fred Bruford for research management.TL;DR: We introduce a pipeline that generates environment bluepri…