研究人员发现了一种针对文本到图像扩散模型的概念擦除技术(concept erasure techniques)的重大漏洞,称为擦除规避后门(Erasure Evasion Backdoor, EEB)。该后门允许攻击者嵌入一个与待删除概念相关联的隐藏触发器,从而确保即使在尝试擦除后,仍能生成与该概念相关的有害内容。EEB被证明对多种最先进的擦除方法都有效,在生成不受欢迎的输出方面取得了很高的成功率,包括名人肖像和露骨图像。 AI
影响 凸显了AI安全机制中的一个关键缺陷,需要新的方法来确保真正删除概念并防止滥用。
排序理由 该集群包含一篇详细介绍AI模型安全技术新漏洞的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →