PulseAugur
实时 23:45:48
实体 Perturbation Probing

Perturbation Probing

PulseAugur coverage of Perturbation Probing — every cluster mentioning Perturbation Probing across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_11458 ·

    新的诊断工具探查LLM的电路,以获得安全性和行为见解

    一篇新的研究论文介绍了一种名为“扰动探测”(Perturbation Probing)的诊断方法,用于理解大型语言模型(LLMs)的内部工作机制。该技术使用每个提示(prompt)进行两次前向传播(forward passes)来识别和分析模型前馈网络(FFNs)中的“行为电路”。研究发现了两种主要的电路结构:对立电路(opposition circuits),当人类反馈强化学习(RLHF)改变预训练倾向时出现;以及路由电路(rout…