English(EN) Erased but Not Forgotten: How Backdoors Compromise Concept Erasure

新型后门绕过AI概念擦除，暴露有害内容

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员发现了一种针对文本到图像扩散模型的概念擦除技术（concept erasure techniques）的重大漏洞，称为擦除规避后门（Erasure Evasion Backdoor, EEB）。该后门允许攻击者嵌入一个与待删除概念相关联的隐藏触发器，从而确保即使在尝试擦除后，仍能生成与该概念相关的有害内容。EEB被证明对多种最先进的擦除方法都有效，在生成不受欢迎的输出方面取得了很高的成功率，包括名人肖像和露骨图像。 AI

影响凸显了AI安全机制中的一个关键缺陷，需要新的方法来确保真正删除概念并防止滥用。

排序理由该集群包含一篇详细介绍AI模型安全技术新漏洞的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Tobias Braun, Jonas Henry Grebe, Marcus Rohrbach, Anna Rohrbach · 2026-06-02 04:00

Erased but Not Forgotten: How Backdoors Compromise Concept Erasure

arXiv:2504.21072v2 Announce Type: replace-cross Abstract: The expansion of text-to-image diffusion models has raised concerns about harmful outputs, from fabricated depictions of public figures to sexually explicit imagery. To mitigate such risks, prior work has proposed concept …

报道来源 [1]

Erased but Not Forgotten: How Backdoors Compromise Concept Erasure

相关实体

相关话题