研究人员开发了一种名为“注意力重定向攻击”(ARA)的新型白盒对抗性攻击,该攻击针对已进行安全对齐的大型语言模型的内部注意力机制。该攻击通过构造非语义标记来将注意力从安全关键组件上转移开,从而比以往的方法更有效地绕过对齐。研究发现,虽然移除特定的注意力头对模型影响甚微,但重定向其注意力却显著降低了LLaMA-3和Mistral-7B等模型的安全性能,这表明安全性能源于注意力路由而非局部组件。 AI
影响 引入了一种新的攻击向量,可以为未来的LLM安全研究和红队演练提供信息。
排序理由 这是一篇详细介绍针对LLM安全机制的新型对抗性攻击的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Attention Redistribution Attack
- Gemma-2-9B-it
- HarmBench
- LLaMA-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →