研究人员调查了视觉 Transformer (ViTs) 在预训练期间如何在没有明确空间监督的情况下编码空间信息。通过探测 ViT-B/16 模型,他们发现边界结构可以在第 5-6 层解码,而需要更多全局线索的深度信息则在之后两到三层才可解码。ViT 中这种学习到的空间层级反映了在灵长类视觉皮层中观察到的进程。 AI
影响 揭示了经过分类训练的 ViTs 如何发展出内部空间层级,可能为未来的模型架构提供信息。
排序理由 分析视觉 Transformer 内部工作原理的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →