研究人员开发了一种新颖的“以视觉为中心的越狱攻击”(VJA),该攻击通过使用视觉提示词而非文本来利用大型图像编辑模型的漏洞。此方法可以绕过Nano Banana Pro和GPT-Image-1.5等模型的安全措施,在生成有害内容方面取得了很高的成功率。为应对此问题,提出了一种基于内省多模态推理的无训练防御机制,该机制在无需额外保护模型或大量计算资源的情况下显著提高了模型安全性。 AI
影响 突显了基于视觉提示词的AI系统的新漏洞,有必要为图像编辑模型改进安全措施。
排序理由 详细介绍AI模型新攻击方法和防御措施的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →