PulseAugur
实时 00:43:32
English(EN) Red-Teaming Anthropic's Internal Agent Monitoring Systems

METR对Anthropic的代理监控系统进行红队测试,发现新颖漏洞

METR与Anthropic合作,对Anthropic内部的代理监控和安全系统进行了为期三周的红队测试。此次合作允许研究人员访问内部系统,发现了几个新颖的漏洞,并已得到修复。虽然这些漏洞并未显著削弱Anthropic现有的风险报告,但此次演习产生了宝贵的成果,如隐蔽攻击轨迹和用于改进监控能力的构思测试集。 AI

排序理由 外部研究人员与前沿AI实验室合作,测试并识别了其内部安全系统的漏洞,并生成了报告和成果。

在 METR (Model Evaluation & Threat Research) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

METR对Anthropic的代理监控系统进行红队测试,发现新颖漏洞

报道来源 [1]

  1. METR (Model Evaluation & Threat Research) TIER_1 English(EN) ·

    对Anthropic内部代理监控系统进行红队测试

    <p>In collaboration with Anthropic, a METR staff member (David Rein) recently spent three weeks <a href="https://en.wikipedia.org/wiki/Red_team">red-teaming</a> a subset of Anthropic’s internal agent monitoring and security systems, many of which are described in the <a href="htt…