PulseAugur
实时 19:44:50

新的诊断工具探查LLM的电路,以获得安全性和行为见解

一篇新的研究论文介绍了一种名为“扰动探测”(Perturbation Probing)的诊断方法,用于理解大型语言模型(LLMs)的内部工作机制。该技术使用每个提示(prompt)进行两次前向传播(forward passes)来识别和分析模型前馈网络(FFNs)中的“行为电路”。研究发现了两种主要的电路结构:对立电路(opposition circuits),当人类反馈强化学习(RLHF)改变预训练倾向时出现;以及路由电路(routing circuits),它们参与通过注意力机制分布的预训练行为。研究展示了如何操纵这些电路来改变模型行为,例如控制安全拒绝或切换语言输出,并强调了不同模型架构(如Qwen和Gemma)之间电路拓扑的差异。 AI

影响 提供了一个新的工具集,用于在机制层面理解和编辑LLM的行为。

排序理由 学术论文,详细介绍了一种新的LLM诊断方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

新的诊断工具探查LLM的电路,以获得安全性和行为见解

报道来源 [3]

  1. arXiv cs.CL TIER_1 English(EN) · Hongliang Liu, Tung-Ling Li, Yuhao Wu ·

    Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs

    arXiv:2604.27401v1 Announce Type: new Abstract: Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amorti…

  2. arXiv cs.CL TIER_1 English(EN) · Yuhao Wu ·

    Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs

    Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amortized across all identified neurons. Across eight …

  3. Hugging Face Daily Papers TIER_1 English(EN) ·

    Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs

    Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amortized across all identified neurons. Across eight …