English(EN) From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers

视觉 Transformer 学会反映灵长类视觉皮层的空间层级

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员调查了视觉 Transformer (ViTs) 在预训练期间如何在没有明确空间监督的情况下编码空间信息。通过探测 ViT-B/16 模型，他们发现边界结构可以在第 5-6 层解码，而需要更多全局线索的深度信息则在之后两到三层才可解码。ViT 中这种学习到的空间层级反映了在灵长类视觉皮层中观察到的进程。 AI

影响揭示了经过分类训练的 ViTs 如何发展出内部空间层级，可能为未来的模型架构提供信息。

排序理由分析视觉 Transformer 内部工作原理的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Jainum Sanghavi · 2026-04-28 04:00

From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers

arXiv:2604.23452v1 Announce Type: new Abstract: Vision Transformers trained only on image classification routinely transfer to tasks that demand spatial understanding, yet they receive no spatial supervision during pretraining. We ask where and how robustly such structure is enco…

报道来源 [1]

From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers

相关实体

相关话题