English(EN) The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs

新研究揭示大语言模型的安全对齐是一种脆弱、可控的“轴”

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

一篇题为《拒绝的几何学：安全对齐的大语言模型中的线性不稳定性》的新研究论文介绍了一种名为对比对数引导（CLS）的方法，用于探测大语言模型安全对齐的脆弱性。CLS 操作于输出分布，识别出一个“拒绝方向”，揭示安全合规可能是一种可操纵的线性特征，而非深层语义决策。在 Llama-3.1 和 Qwen-2.5 等模型上的实验表明，CLS 可以有效地绕过安全护栏，实现高攻击成功率，并暴露其他方法低估的漏洞。研究表明，当前的对齐技术创建了一个可控的“安全轴”，可用于攻击或防御。 AI

影响揭示当前大语言模型的安全对齐可能是一种脆弱的线性特征，可能影响防御策略和未来的对齐研究。

排序理由该集群包含一篇详细介绍分析大语言模型安全对齐新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shivam Ratnakar, Kartikeya Vats · 2026-07-01 04:00

The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs

arXiv:2606.22686v2 Announce Type: replace-cross Abstract: Modern Large Language Models (LLMs) rely on extensive safety alignment, yet the mechanistic basis of refusal remains opaque. In this work, we investigate whether safety compliance is a deep semantic decision or a manipulab…

报道来源 [1]

The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs

相关实体

相关话题