研究人员开发了一种名为三组件注意力剖析(TCAP)的新型无监督方法,用于检测微调后的多模态大语言模型(MLLMs)中的后门。该技术通过分析注意力在系统指令、视觉输入和用户查询之间的分布来识别被污染的数据,并指出后门攻击会破坏这种平衡。TCAP使用统计剖析和基于EM的聚合来隔离恶意样本,在各种MLLM架构和攻击类型上均表现出强大的性能。 AI
影响 引入了一种新颖的无监督防御方法,用于对抗多模态大语言模型中的后门攻击,增强了微调服务的模型安全性。
排序理由 该集群包含一篇学术论文,详细介绍了一种检测AI模型安全漏洞的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →