新的诊断工具探查LLM的电路，以获得安全性和行为见解

作者 PulseAugur 编辑部 · [3 个来源] · 2026-04-30 04:13

一篇新的研究论文介绍了一种名为“扰动探测”（Perturbation Probing）的诊断方法，用于理解大型语言模型（LLMs）的内部工作机制。该技术使用每个提示（prompt）进行两次前向传播（forward passes）来识别和分析模型前馈网络（FFNs）中的“行为电路”。研究发现了两种主要的电路结构：对立电路（opposition circuits），当人类反馈强化学习（RLHF）改变预训练倾向时出现；以及路由电路（routing circuits），它们参与通过注意力机制分布的预训练行为。研究展示了如何操纵这些电路来改变模型行为，例如控制安全拒绝或切换语言输出，并强调了不同模型架构（如Qwen和Gemma）之间电路拓扑的差异。 AI

影响提供了一个新的工具集，用于在机制层面理解和编辑LLM的行为。

排序理由学术论文，详细介绍了一种新的LLM诊断方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.CL TIER_1 English(EN) · Hongliang Liu, Tung-Ling Li, Yuhao Wu · 2026-05-01 04:00

扰动探测：用于已对齐大模型前馈网络行为电路的每提示两次探测诊断法

arXiv:2604.27401v1 Announce Type: new Abstract: Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amorti…
arXiv cs.CL TIER_1 English(EN) · Yuhao Wu · 2026-04-30 04:13

扰动探测：针对已对齐大语言模型中FFN行为电路的每提示两次探测诊断法

Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amortized across all identified neurons. Across eight …
Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-30 04:13

扰动探测：针对已对齐大语言模型中FFN行为电路的双通道每提示诊断

Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amortized across all identified neurons. Across eight …

报道来源 [3]

扰动探测：用于已对齐大模型前馈网络行为电路的每提示两次探测诊断法

扰动探测：针对已对齐大语言模型中FFN行为电路的每提示两次探测诊断法

扰动探测：针对已对齐大语言模型中FFN行为电路的双通道每提示诊断

相关实体

相关话题