新的训练方法消除了 Vision Transformers 中的位置嵌入

作者 PulseAugur 编辑部 · [2 个来源] · 2026-07-01 08:02

研究人员开发了一种名为 Active Spatial Guidance (Guidance) 的新训练技术，消除了 Vision Transformers (ViTs) 中对显式位置嵌入的需求。通过在训练期间对最后一层 patch token 应用辅助的二维坐标回归损失，Guidance 直接从数据中诱导空间组织。该方法在 ImageNet-100 分类和 ADE20K 语义分割等任务上持续提高了性能，优于传统的注入式位置机制，如学习到的绝对位置嵌入和旋转位置嵌入。 AI

影响这项训练技术通过消除架构复杂性，有望带来更高效、更鲁棒的 Vision Transformers。

排序理由该集群包含一篇详细介绍计算机视觉模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Cong Liu, Xiaofang Li, Simon X. Yang · 2026-07-02 04:00

Active Spatial Guidance: Eliminating Injected Positional Mechanisms in Vision Transformers

arXiv:2607.00580v1 Announce Type: new Abstract: Vision Transformers (ViTs) commonly rely on injected positional mechanisms to address self-attention's permutation invariance. Motivated by the spatial regularities of natural images, we ask whether spatial organization can be induc…
arXiv cs.CV TIER_1 English(EN) · Simon X. Yang · 2026-07-01 08:02

主动空间引导：消除 Vision Transformers 中的注入式位置机制

Vision Transformers (ViTs) commonly rely on injected positional mechanisms to address self-attention's permutation invariance. Motivated by the spatial regularities of natural images, we ask whether spatial organization can be induced from data rather than explicitly injected. Un…

报道来源 [2]

Active Spatial Guidance: Eliminating Injected Positional Mechanisms in Vision Transformers

主动空间引导：消除 Vision Transformers 中的注入式位置机制

相关实体

相关话题