New training method eliminates positional embeddings in Vision Transformers

By PulseAugur Editorial · [1 sources] · 2026-07-01 08:02

Researchers have developed a new training technique called Active Spatial Guidance (Guidance) that eliminates the need for explicit positional embeddings in Vision Transformers (ViTs). By applying an auxiliary 2D coordinate-regression loss to the final-layer patch tokens during training, Guidance induces spatial organization directly from the data. This method consistently improved performance on tasks like ImageNet-100 classification and ADE20K semantic segmentation, outperforming traditional injected positional mechanisms such as learned absolute positional embeddings and rotary positional embeddings. AI

IMPACT This training technique could lead to more efficient and robust Vision Transformers by removing architectural complexity.

RANK_REASON The cluster contains an academic paper detailing a new method for training computer vision models. [lever_c_demoted from research: ic=1 ai=1.0]

Read on arXiv cs.CV →

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

New training method eliminates positional embeddings in Vision Transformers

COVERAGE [1]

arXiv cs.CV TIER_1 English(EN) · Simon X. Yang · 2026-07-01 08:02

Active Spatial Guidance: Eliminating Injected Positional Mechanisms in Vision Transformers

Vision Transformers (ViTs) commonly rely on injected positional mechanisms to address self-attention's permutation invariance. Motivated by the spatial regularities of natural images, we ask whether spatial organization can be induced from data rather than explicitly injected. Un…

COVERAGE [1]

Active Spatial Guidance: Eliminating Injected Positional Mechanisms in Vision Transformers

RELATED ENTITIES

RELATED TOPICS