ViT-Up framework enhances Vision Transformer feature upsampling

By PulseAugur Editorial · [1 sources] · 2026-06-12 00:00

Researchers have introduced ViT-Up, a novel framework designed to enhance feature upsampling for Vision Transformers (ViTs). This method utilizes layer-wise query construction from intermediate hidden states, bypassing the need for external image guidance and thus avoiding issues like feature leakage and fragmentation. ViT-Up enables the prediction of features at arbitrary continuous image coordinates, leading to improved performance on dense prediction tasks such as semantic segmentation and depth estimation, with significant gains reported on benchmarks like Cityscapes and SPair-71k. AI

IMPACT Enhances Vision Transformer capabilities for dense prediction tasks, potentially improving performance in areas like semantic segmentation and depth estimation.

RANK_REASON The cluster describes a new research paper detailing a novel framework for Vision Transformers. [lever_c_demoted from research: ic=1 ai=1.0]

Read on Hugging Face Daily Papers →

paper
infra

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

ViT-Up framework enhances Vision Transformer feature upsampling

COVERAGE [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-12 00:00

ViT-Up: Faithful Feature Upsampling for Vision Transformers

ViT-Up is a feature upsampling framework for Vision Transformers that uses layer-wise query construction from hidden states to improve dense prediction tasks, outperforming existing image-guided methods.

COVERAGE [1]

ViT-Up: Faithful Feature Upsampling for Vision Transformers

RELATED ENTITIES

RELATED TOPICS