研究人员开发了 CrossGuard,一种旨在保护多模态大语言模型 (MLLM) 免受复杂隐式攻击的新型防御系统。这些攻击将看似无害的文本和图像输入结合起来传达恶意意图,使其难以检测。为了解决这个问题,该团队还创建了 ImpForge,一个自动化的管道,用于生成多样化的隐式攻击样本以进行训练和评估。实验表明,与现有防御措施相比,CrossGuard 在抵抗隐式和显式威胁方面提供了卓越的保护,同时保持了模型的效用。 AI
影响 引入了一种针对隐式多模态攻击的新型防御措施,有望提高 MLLM 的安全性和可信度。
排序理由 学术论文,介绍了一种针对多模态大语言模型的新型防御机制。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →