实体 Lindsey et al.

Lindsey et al.

PulseAugur coverage of Lindsey et al. — every cluster mentioning Lindsey et al. across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_165006 · Jul 27 · 04:14

新的训练方法通过减少信号损失来增强 LLM 的可解释性

研究人员开发了一种名为“替换感知训练”的新方法，以提高大型语言模型的可解释性。该技术训练稀疏自编码器 (SAE)，使其能够抵抗上层引入的错误，而之前的方法则依赖“错误节点”来补偿信号损失。当应用于 Gemma-2-2B 时，这种方法产生了一个保留了语言能力并在 MMLU 等基准测试中表现更好的替换模型，而标准的 SAE 通常会使模型不连贯。
TOOL · CL_151945 · Jul 20 · 04:00

新“prolepsis”现象在小型 Transformer 模型中被识别

研究人员在小型 Transformer 模型中识别出一种称为“prolepsis”的现象，即模型在处理早期就做出决定，且无法纠正。这种承诺由特定任务的注意力头维持，并且不易被标准的残差流方法检测到，尽管基于 CLT 的引导显示出一些成功。研究发现，这种 prolepsis 模式出现在 Gemma 2-2B 和 Llama 3.2 1B 等仅解码器模型中的不同任务上，表明存在一个共享的潜在机制。
TOOL · CL_86836 · Jun 12 · 04:00

语言模型神经元被发现是稀疏的，有助于可解释性

研究人员已经证明，语言模型MLP层内的神经元表现出的稀疏度与稀疏自编码器（SAE）相当。这一发现使得开发用于电路追踪的基于梯度的管道成为可能，从而能够识别出具有因果效应的神经元。该方法已成功识别出约100个MLP神经元组成的电路，用于控制模型在主谓一致任务上的行为，并揭示了用于多跳城市-州-首都任务的推理步骤的特定神经元集，在没有额外训练成本的情况下推进了自动化可解释性。