PulseAugur
实时 15:45:52
English(EN) Inside the Visual Mind: Neuroscience-Motivated Concept Circuits for Interpreting and Steering Vision Transformers

新的 ViSAE 工具箱可解释和引导 Vision Transformer 模型

研究人员开发了 ViSAE,这是一个旨在解释和引导 Vision Transformer (ViTs) 行为的新工具箱。ViSAE 受神经科学启发,使用稀疏自编码器将 ViT 表示分解为可理解的概念,解决了概念覆盖范围和解释准确性的局限性。该系统包括一个高效的探测套件、用于追踪概念电路的算法以及用于审计和引导 ViT 输出的应用,特别是在特定数据集上提高了最差组的准确性。 AI

影响 增强了视觉模型的可解释性,可能支持更安全的部署和更有针对性的行为修改。

排序理由 该集群包含一篇研究论文,详细介绍了用于解释和引导 AI 模型的新方法。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Tang Li, Yanlin Chen, Mengmeng Ma, Xi Peng ·

    视觉大脑内部:神经科学启发的概念电路用于解释和引导 Vision Transformers

    arXiv:2606.06664v1 Announce Type: cross Abstract: Despite high accuracy, Vision Transformer (ViT) predictions can be driven by spurious cues, raising the need to understand their inner workings before safe deployment. Sparse autoencoders (SAEs) provide a promising lens for decomp…