English(EN) Discovering Interpretable Algorithms by Decompiling Transformers to RASP

研究人员将 Transformer 反编译成可解释的 RASP 程序

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员开发了一种从训练好的 Transformer 模型中提取可解释算法的新方法。该技术涉及将 Transformer 重新参数化为 RASP 程序，然后使用因果干预来分离出小型、充分的子程序。在为算法和形式语言任务训练的 Transformer 上进行的实验表明，该方法通常可以从表现出长度泛化的模型中恢复简单的 RASP 程序，有力地证明了 Transformer 内部实现了此类程序。 AI

影响提供了一种理解 Transformer 模型内部计算的方法，有望带来更具可解释性和可信赖的 AI 系统。

排序理由该集群包含一篇详细介绍分析 AI 模型新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xinting Huang, Aleksandra Bakalova, Satwik Bhattamishra, William Merrill, Michael Hahn · 2026-06-08 04:00

通过反编译 Transformer 到 RASP 来发现可解释算法

arXiv:2602.08857v2 Announce Type: replace-cross Abstract: Recent work has shown that the computations of Transformers can be simulated in the RASP family of programming languages. These findings have enabled improved understanding of the expressive capacity and generalization abi…

报道来源 [1]

通过反编译 Transformer 到 RASP 来发现可解释算法

相关实体

相关话题