English(EN) Are Neuro-Inspired Multi-Modal Vision-Language Models Resilient to Membership Inference Privacy Leakage?

新研究揭示视觉语言模型的隐私风险

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-16 04:00

新研究表明，多模态视觉语言模型（VLMs）容易受到隐私攻击，特别是成员推断攻击（MIAs），这些攻击可能泄露敏感的训练数据。一项研究提出了一种受神经启发的拓扑正则化框架，该框架在不显著影响模型效用的情况下，显著降低了BLIP、PaliGemma 2和ViT-GPT2等模型中MIAs的成功率。另一篇论文强调，像Gemma4和Fuyu这样的无编码器VLMs带来了独特的隐私风险，因为它们的架构允许中间视觉标记充当侧信道，从而能够恢复可识别的图像结构甚至访问代码，而基于编码器的模型则不存在这种漏洞。 AI

影响这些发现突显了多模态AI中关键的隐私漏洞，可能影响这些系统的部署和信任。

排序理由该集群包含两篇学术论文，详细介绍了多模态视觉语言模型的隐私漏洞和缓解策略的研究。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · David Amebley, Sayanton Dibbo · 2026-06-16 04:00

受神经启发的、多模态的视觉-语言模型是否能抵御成员推理隐私泄露？

arXiv:2511.20710v2 Announce Type: replace-cross Abstract: In the age of agentic AI, the growing deployment of multi-modal models (MMs) has introduced new attack vectors that can leak sensitive training data in MMs, causing privacy leakage. This paper investigates a black-box priv…
arXiv cs.CV TIER_1 English(EN) · Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou · 2026-06-16 04:00

视觉编码器作为隐私边界：无编码器视觉语言模型中的视觉-令牌侧信道

arXiv:2606.14783v1 Announce Type: new Abstract: A vision encoder compresses image pixels into semantic embeddings, implicitly acting as a privacy boundary by preserving semantic content while attenuating pixel-local detail required for exact text recovery. Encoder-free vision-lan…

报道来源 [2]

受神经启发的、多模态的视觉-语言模型是否能抵御成员推理隐私泄露？

视觉编码器作为隐私边界：无编码器视觉语言模型中的视觉-令牌侧信道

相关实体

相关话题