研究人员发现当前视觉语言模型(VLM)的安全训练存在一个重大缺陷,称为“安全幻觉”。这是因为模型学习到了表面文本模式与安全响应之间的虚假关联,而不是真正理解危害。这些 VLM 很容易被简单的词语替换所欺骗,导致绕过安全措施或不必要地拒绝良性查询。研究提出机器学习解绑(MU)作为一种更有效的安全对齐方法,可将攻击成功率降低高达 60%,不必要拒绝率降低超过 84%。 AI
影响 凸显了 VLM 安全训练中的关键漏洞,可能将对齐策略转向更鲁棒的方法,如机器学习解绑。
排序理由 学术论文,详细介绍了 VLM 安全方面的新发现和拟议的缓解措施。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →