PulseAugur
实时 11:50:40
English(EN) Many Circuits, One Mechanism: Input Variation and Evaluation Granularity in Circuit Discovery

AI电路发现方法可能将结构误解为功能

研究人员在AI模型中识别出一种称为“幻影特化”的现象,其中输入统计数据的变异会导致结构不同的电路执行相同的功能。这表明当前发现AI电路的方法可能无法准确反映不同的潜在机制。该研究使用了Pythia模型,发现许多发现的电路实现了相同的计算,这凸显了需要更细致的评估技术(如边缘级别分析)来理解模型行为。 AI

影响 挑战了当前理解AI模型内部机制的方法,表明需要改进评估以准确区分功能机制。

排序理由 该集群包含一篇在arXiv上发表的研究论文,详细介绍了关于AI模型电路发现的成果。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Alireza Bayat Makou, Jingcheng Niu, Subhabrata Dutta, Iryna Gurevych ·

    多电路,一机制:输入变异与评估粒度在电路发现中的应用

    arXiv:2606.06267v1 Announce Type: new Abstract: Circuit discovery methods identify subgraphs that explain specific model behaviors, and structural differences between discovered circuits are commonly interpreted as evidence of distinct mechanisms. We test this assumption by varyi…

  2. arXiv cs.CL TIER_1 English(EN) · Iryna Gurevych ·

    多重电路,单一机制:电路发现中的输入变异与评估粒度

    Circuit discovery methods identify subgraphs that explain specific model behaviors, and structural differences between discovered circuits are commonly interpreted as evidence of distinct mechanisms. We test this assumption by varying input statistics while holding the task fixed…