一篇新的研究论文介绍了一种名为“扰动探测”(Perturbation Probing)的诊断方法,用于理解大型语言模型(LLMs)的内部工作机制。该技术使用每个提示(prompt)进行两次前向传播(forward passes)来识别和分析模型前馈网络(FFNs)中的“行为电路”。研究发现了两种主要的电路结构:对立电路(opposition circuits),当人类反馈强化学习(RLHF)改变预训练倾向时出现;以及路由电路(routing circuits),它们参与通过注意力机制分布的预训练行为。研究展示了如何操纵这些电路来改变模型行为,例如控制安全拒绝或切换语言输出,并强调了不同模型架构(如Qwen和Gemma)之间电路拓扑的差异。 AI
影响 提供了一个新的工具集,用于在机制层面理解和编辑LLM的行为。
排序理由 学术论文,详细介绍了一种新的LLM诊断方法。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →