Nous Research 的研究人员开发了一种名为对比神经元归因 (CNA) 的新方法,用于识别和操纵大型语言模型中控制拒绝行为的特定神经元。通过仅靶向这些神经元的 0.1%,CNA 可以将 Llama 和 Qwen 等模型的有害请求拒绝率降低 50% 以上,同时保持高质量的输出。该技术无需额外的训练或修改模型权重即可运行,重要的是,它揭示了区分有害提示和良性提示的底层神经结构即使在对齐微调之前的基础模型中也存在。 AI
影响 能够精确控制 LLM 的安全机制,可能导致更强大的对齐技术和对模型行为的更深入理解。
排序理由 该集群描述了一篇详细介绍分析和操纵 AI 模型行为的新颖方法的新研究论文。
在 Mastodon — sigmoid.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →