一篇题为《拒绝的几何学:安全对齐的大语言模型中的线性不稳定性》的新研究论文介绍了一种名为对比对数引导(CLS)的方法,用于探测大语言模型安全对齐的脆弱性。CLS 操作于输出分布,识别出一个“拒绝方向”,揭示安全合规可能是一种可操纵的线性特征,而非深层语义决策。在 Llama-3.1 和 Qwen-2.5 等模型上的实验表明,CLS 可以有效地绕过安全护栏,实现高攻击成功率,并暴露其他方法低估的漏洞。研究表明,当前的对齐技术创建了一个可控的“安全轴”,可用于攻击或防御。 AI
影响 揭示当前大语言模型的安全对齐可能是一种脆弱的线性特征,可能影响防御策略和未来的对齐研究。
排序理由 该集群包含一篇详细介绍分析大语言模型安全对齐新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →