PulseAugur
实时 23:04:01
English(EN) The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs

新研究揭示大语言模型的安全对齐是一种脆弱、可控的“轴”

一篇题为《拒绝的几何学:安全对齐的大语言模型中的线性不稳定性》的新研究论文介绍了一种名为对比对数引导(CLS)的方法,用于探测大语言模型安全对齐的脆弱性。CLS 操作于输出分布,识别出一个“拒绝方向”,揭示安全合规可能是一种可操纵的线性特征,而非深层语义决策。在 Llama-3.1Qwen-2.5 等模型上的实验表明,CLS 可以有效地绕过安全护栏,实现高攻击成功率,并暴露其他方法低估的漏洞。研究表明,当前的对齐技术创建了一个可控的“安全轴”,可用于攻击或防御。 AI

影响 揭示当前大语言模型的安全对齐可能是一种脆弱的线性特征,可能影响防御策略和未来的对齐研究。

排序理由 该集群包含一篇详细介绍分析大语言模型安全对齐新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新研究揭示大语言模型的安全对齐是一种脆弱、可控的“轴”

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Shivam Ratnakar, Kartikeya Vats ·

    The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs

    arXiv:2606.22686v2 Announce Type: replace-cross Abstract: Modern Large Language Models (LLMs) rely on extensive safety alignment, yet the mechanistic basis of refusal remains opaque. In this work, we investigate whether safety compliance is a deep semantic decision or a manipulab…