METR与Anthropic合作,对Anthropic内部的代理监控和安全系统进行了为期三周的红队测试。此次合作允许研究人员访问内部系统,发现了几个新颖的漏洞,并已得到修复。虽然这些漏洞并未显著削弱Anthropic现有的风险报告,但此次演习产生了宝贵的成果,如隐蔽攻击轨迹和用于改进监控能力的构思测试集。 AI
排序理由 外部研究人员与前沿AI实验室合作,测试并识别了其内部安全系统的漏洞,并生成了报告和成果。
在 METR (Model Evaluation & Threat Research) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →