English(EN) Inside the Visual Mind: Neuroscience-Motivated Concept Circuits for Interpreting and Steering Vision Transformers

新的 ViSAE 工具箱可解释和引导 Vision Transformer 模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员开发了 ViSAE，这是一个旨在解释和引导 Vision Transformer (ViTs) 行为的新工具箱。ViSAE 受神经科学启发，使用稀疏自编码器将 ViT 表示分解为可理解的概念，解决了概念覆盖范围和解释准确性的局限性。该系统包括一个高效的探测套件、用于追踪概念电路的算法以及用于审计和引导 ViT 输出的应用，特别是在特定数据集上提高了最差组的准确性。 AI

影响增强了视觉模型的可解释性，可能支持更安全的部署和更有针对性的行为修改。

排序理由该集群包含一篇研究论文，详细介绍了用于解释和引导 AI 模型的新方法。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Tang Li, Yanlin Chen, Mengmeng Ma, Xi Peng · 2026-06-08 04:00

视觉大脑内部：神经科学启发的概念电路用于解释和引导 Vision Transformers

arXiv:2606.06664v1 Announce Type: cross Abstract: Despite high accuracy, Vision Transformer (ViT) predictions can be driven by spurious cues, raising the need to understand their inner workings before safe deployment. Sparse autoencoders (SAEs) provide a promising lens for decomp…

报道来源 [1]

视觉大脑内部：神经科学启发的概念电路用于解释和引导 Vision Transformers

相关实体

相关话题