研究人员在大语言模型中发现了一个单一的、一维的子空间,该子空间负责模型拒绝响应有害指令。通过操纵模型内部激活的这个特定方向,他们可以完全禁用拒绝行为,或者即使是对于良性请求也能诱导其拒绝。这一发现凸显了当前安全微调方法的脆弱性,并为控制模型行为提供了新的途径。 AI
影响 揭示了LLM安全机制的一个潜在漏洞,暗示了新的越狱或控制模型行为的方法。
排序理由 学术论文,详细介绍了关于LLM安全机制的一项新发现。
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →