PulseAugur
实时 11:46:54

新的训练方法消除了 Vision Transformers 中的位置嵌入

研究人员开发了一种名为 Active Spatial Guidance (Guidance) 的新训练技术,消除了 Vision Transformers (ViTs) 中对显式位置嵌入的需求。通过在训练期间对最后一层 patch token 应用辅助的二维坐标回归损失,Guidance 直接从数据中诱导空间组织。该方法在 ImageNet-100 分类和 ADE20K 语义分割等任务上持续提高了性能,优于传统的注入式位置机制,如学习到的绝对位置嵌入和旋转位置嵌入。 AI

影响 这项训练技术通过消除架构复杂性,有望带来更高效、更鲁棒的 Vision Transformers

排序理由 该集群包含一篇详细介绍计算机视觉模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的训练方法消除了 Vision Transformers 中的位置嵌入

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Cong Liu, Xiaofang Li, Simon X. Yang ·

    Active Spatial Guidance: Eliminating Injected Positional Mechanisms in Vision Transformers

    arXiv:2607.00580v1 Announce Type: new Abstract: Vision Transformers (ViTs) commonly rely on injected positional mechanisms to address self-attention's permutation invariance. Motivated by the spatial regularities of natural images, we ask whether spatial organization can be induc…

  2. arXiv cs.CV TIER_1 English(EN) · Simon X. Yang ·

    主动空间引导:消除 Vision Transformers 中的注入式位置机制

    Vision Transformers (ViTs) commonly rely on injected positional mechanisms to address self-attention's permutation invariance. Motivated by the spatial regularities of natural images, we ask whether spatial organization can be induced from data rather than explicitly injected. Un…