PulseAugur
实时 20:02:31
English(EN) From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers

视觉 Transformer 学会反映灵长类视觉皮层的空间层级

研究人员调查了视觉 Transformer (ViTs) 在预训练期间如何在没有明确空间监督的情况下编码空间信息。通过探测 ViT-B/16 模型,他们发现边界结构可以在第 5-6 层解码,而需要更多全局线索的深度信息则在之后两到三层才可解码。ViT 中这种学习到的空间层级反映了在灵长类视觉皮层中观察到的进程。 AI

影响 揭示了经过分类训练的 ViTs 如何发展出内部空间层级,可能为未来的模型架构提供信息。

排序理由 分析视觉 Transformer 内部工作原理的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

视觉 Transformer 学会反映灵长类视觉皮层的空间层级

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Jainum Sanghavi ·

    From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers

    arXiv:2604.23452v1 Announce Type: new Abstract: Vision Transformers trained only on image classification routinely transfer to tasks that demand spatial understanding, yet they receive no spatial supervision during pretraining. We ask where and how robustly such structure is enco…