English(EN) Refusal in Language Models Is Mediated by a Single Direction https://arxiv.org/abs/2406.11717 # HackerNews # Tech # AI

研究人员发现单一方向控制LLM拒绝行为

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-02 13:15

研究人员在大语言模型中发现了一个单一的、一维的子空间，该子空间负责模型拒绝响应有害指令。通过操纵模型内部激活的这个特定方向，他们可以完全禁用拒绝行为，或者即使是对于良性请求也能诱导其拒绝。这一发现凸显了当前安全微调方法的脆弱性，并为控制模型行为提供了新的途径。 AI

影响揭示了LLM安全机制的一个潜在漏洞，暗示了新的越狱或控制模型行为的方法。

排序理由学术论文，详细介绍了关于LLM安全机制的一项新发现。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]