Anthropic 发布了一个用于对 AI 越狱进行分类和评级的新框架,称为网络越狱严重性 (CJS) 等级。该等级根据能力提升、启用的攻击类型范围、武器化难易程度和可发现性等因素,将越狱分为 CJS-0 至 CJS-4。该公司还详细介绍了其更新的网络分类器,将请求分为禁止类、高风险双用途类、低风险双用途类和良性类,目前高风险双用途操作已被阻止,直到授权控制得到改进。Anthropic 正通过 HackerOne 项目就 CJS 等级和潜在的网络越狱征求社区反馈。 AI
影响 为 AI 越狱风险建立了标准化语言,可能影响整个行业的安全协议和监管讨论。
排序理由 AI 实验室的研究里程碑发布,详细介绍了新的安全框架。[lever_c_demoted from research: ic=1 ai=1.0]
- An Ape and a Fox
- Anthropic
- CJS-0
- CJS-4
- Claude Fable 5
- Cyber Jailbreak Severity (CJS) scale
- Hackerone
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →