研究人员开发了 EntropyScan,一种检测大型视觉语言模型 (LVLM) 中后门的新方法。该方法是模型级别的,不需要了解训练数据或特定的攻击触发器。EntropyScan 通过分析 LVLM 在处理良性样本时视觉注意力分配中的异常来识别后门,这表明跨模态对齐受到干扰。该方法利用 Tsallis 熵来量化这些失真,在实验中取得了高精度。 AI
影响 引入了一种检测视觉语言模型安全漏洞的新方法,这对于安全部署至关重要。
排序理由 学术论文,介绍了一种检测 LVLM 后门的新方法。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →