English(EN) When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability

新的张量相似性指标有助于神经网络可解释性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-14 17:58

研究人员开发了一种名为张量相似性的新指标，用于评估神经网络中计算部分的函数等价性。该方法旨在对某些对称性保持不变，从而比现有的基于行为或参数的度量方法更能稳健地比较网络组件。新指标在跟踪 grokking 和后门插入等训练动态方面表现出更高的保真度，有效地将网络相似性和忠实度的验证视为一个代数问题。 AI

影响引入了一种新颖的代数方法来验证神经网络组件的功能等价性，有望改善模型理解和调试。

排序理由该集群包含一篇介绍机械可解释性新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Thomas Dooms · 2026-05-14 17:58

两个网络何时相同？用于机制可解释性的张量相似性

Mechanistic interpretability aims to break models into meaningful parts; verifying that two such parts implement the same computation is a prerequisite. Existing similarity measures evaluate either empirical behaviour, leaving them blind to out-of-distribution mechanisms, or basi…

报道来源 [1]

两个网络何时相同？用于机制可解释性的张量相似性

相关实体

相关话题