研究人员开发了一种名为高噪声漂移门控 (High-Noise Drift Gating) 的新防御机制,以提高视觉语言模型 (VLM) 对抗对抗性攻击的鲁棒性。该方法识别出 CLIP 等 VLM 中的一个关键噪声区域转换,在该区域,对抗性表示在较高噪声水平下比干净表示明显更不稳定。通过利用这种不稳定性作为信号,系统仅在必要时选择性地应用现有的测试时防御,从而同时提高干净精度和对抗鲁棒性。 AI
影响 这项研究提供了一种更有效的方法来保护视觉语言模型免受对抗性操纵,有可能提高它们在实际应用中的可靠性。
排序理由 该集群包含一篇详细介绍提高人工智能模型安全性新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →