PulseAugur
实时 20:32:16
实体 Andy Arditi

Andy Arditi

PulseAugur coverage of Andy Arditi — every cluster mentioning Andy Arditi across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_13101 ·

    研究人员发现单一方向控制LLM拒绝行为

    研究人员在大语言模型中发现了一个单一的、一维的子空间,该子空间负责模型拒绝响应有害指令。通过操纵模型内部激活的这个特定方向,他们可以完全禁用拒绝行为,或者即使是对于良性请求也能诱导其拒绝。这一发现凸显了当前安全微调方法的脆弱性,并为控制模型行为提供了新的途径。