PulseAugur
实时 11:24:04
English(EN) Erased but Not Forgotten: How Backdoors Compromise Concept Erasure

新型后门绕过AI概念擦除,暴露有害内容

研究人员发现了一种针对文本到图像扩散模型的概念擦除技术(concept erasure techniques)的重大漏洞,称为擦除规避后门(Erasure Evasion Backdoor, EEB)。该后门允许攻击者嵌入一个与待删除概念相关联的隐藏触发器,从而确保即使在尝试擦除后,仍能生成与该概念相关的有害内容。EEB被证明对多种最先进的擦除方法都有效,在生成不受欢迎的输出方面取得了很高的成功率,包括名人肖像和露骨图像。 AI

影响 凸显了AI安全机制中的一个关键缺陷,需要新的方法来确保真正删除概念并防止滥用。

排序理由 该集群包含一篇详细介绍AI模型安全技术新漏洞的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Tobias Braun, Jonas Henry Grebe, Marcus Rohrbach, Anna Rohrbach ·

    Erased but Not Forgotten: How Backdoors Compromise Concept Erasure

    arXiv:2504.21072v2 Announce Type: replace-cross Abstract: The expansion of text-to-image diffusion models has raised concerns about harmful outputs, from fabricated depictions of public figures to sexually explicit imagery. To mitigate such risks, prior work has proposed concept …