研究人员提出了一种名为盲反演-后门对抗性遗忘 (BI-BAU) 的新方法,以解决当前 AI 模型中后门防御的局限性。该方法将后门遗忘视为持续学习中的一个顺序过程,旨在彻底消除恶意影响。BI-BAU 利用期望最大化算法解决盲反演问题,有效清除受损预训练模型中的后门,即使在非目标对抗场景和多模态任务中也是如此。 AI
影响 这项研究可能带来更强大的针对复杂后门攻击的防御能力,从而增强预训练 AI 模型的安全性。
排序理由 该集群包含一篇在 arXiv 上发表的研究论文,详细介绍了一种新的 AI 模型安全方法。
- arXiv
- BI-BAU
- Blind Inversion-Backdoor Adversarial Unlearning
- continual learning
- expectation–maximization algorithm
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →