Anthropic 在政府命令暂停后恢复了其 Fable 5 模型,实施了一种新的网络安全分类器,在超过 99% 的情况下阻止了一种已知的越狱技术。该模型的恢复还包括一个与亚马逊、微软和谷歌共同开发的用于评估越狱严重性的跨实验室框架。该框架旨在标准化 AI 实验室描述和控制滥用的方式,解决了不同实验室使用不兼容的标准来评判漏洞的差距。 AI
影响 为跨实验室安全协作和 AI 模型漏洞的标准化报告树立了先例。
排序理由 前沿实验室模型发布,附带系统卡和新的安全框架。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →