English(EN) Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Bag of Dims：揭示训练无关的 Transformer 可解释性方法

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 00:00

研究人员开发了一种名为“Bag of Dims”的新方法，该方法实现了 Transformer 模型训练无关的机械可解释性。该方法将 Transformer 隐藏状态内的单个维度视为独立的寄存器，其中维度的符号表示语义内容，其幅度表示置信度。该框架已在语言、视觉和音频领域的各种模型中得到验证，证明仅符号模式就能以高精度预测下一个 token 准确率并检测语义类别。此外，实验表明这些特征具有因果作用，意味着可以通过操纵它们的符号来抑制模型处理中的特定概念。 AI

影响无需大量训练或计算资源即可实现对 Transformer 模型更快、更易于访问的分析。

排序理由该条目描述了一篇提出 Transformer 模型机械可解释性新方法的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-17 00:00

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

The standard basis of transformer hidden states serves as a training-free, architecture-general feature representation where individual dimensions encode semantic content through signs and confidence through magnitudes, functioning as independent binary registers without requirin…

报道来源 [1]

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

相关实体

相关话题