PulseAugur
实时 21:11:04
实体 Attention Redistribution Attack

Attention Redistribution Attack

PulseAugur coverage of Attention Redistribution Attack — every cluster mentioning Attention Redistribution Attack across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15459 ·

    新的攻击将LLM注意力重定向以绕过安全对齐

    研究人员开发了一种名为“注意力重定向攻击”(ARA)的新型白盒对抗性攻击,该攻击针对已进行安全对齐的大型语言模型的内部注意力机制。该攻击通过构造非语义标记来将注意力从安全关键组件上转移开,从而比以往的方法更有效地绕过对齐。研究发现,虽然移除特定的注意力头对模型影响甚微,但重定向其注意力却显著降低了LLaMA-3和Mistral-7B等模型的安全性能,这表明安全性能源于注意力路由而非局部组件。