English(EN) CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

CrossGuard 保护多模态大语言模型免受隐式和显式攻击

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了 CrossGuard，一种旨在保护多模态大语言模型 (MLLM) 免受复杂隐式攻击的新型防御系统。这些攻击将看似无害的文本和图像输入结合起来传达恶意意图，使其难以检测。为了解决这个问题，该团队还创建了 ImpForge，一个自动化的管道，用于生成多样化的隐式攻击样本以进行训练和评估。实验表明，与现有防御措施相比，CrossGuard 在抵抗隐式和显式威胁方面提供了卓越的保护，同时保持了模型的效用。 AI

影响引入了一种针对隐式多模态攻击的新型防御措施，有望提高 MLLM 的安全性和可信度。

排序理由学术论文，介绍了一种针对多模态大语言模型的新型防御机制。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xu Zhang, Hao Li, Zhichao Lu · 2026-04-28 04:00

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

arXiv:2510.17687v2 Announce Type: replace-cross Abstract: Multimodal Large Language Models (MLLMs) achieve strong reasoning and perception capabilities but are increasingly vulnerable to jailbreak attacks. While existing work focuses on explicit attacks, where malicious content r…

报道来源 [1]

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

相关实体

相关话题