English(EN) ViT-Up: Faithful Feature Upsampling for Vision Transformers

ViT-Up 框架增强 Vision Transformer 特征上采样

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-12 00:00

研究人员推出了一种名为 ViT-Up 的新颖框架，旨在增强 Vision Transformer (ViTs) 的特征上采样。该方法利用中间隐藏状态进行逐层查询构建，无需外部图像引导，从而避免了特征泄露和碎片化等问题。ViT-Up 能够预测任意连续图像坐标处的特征，从而在语义分割和深度估计等密集预测任务上获得更好的性能，并在 Cityscapes 和 SPair-71k 等基准测试中取得了显著的提升。 AI

影响增强了 Vision Transformer 在密集预测任务中的能力，有望在语义分割和深度估计等领域提高性能。

排序理由该集群描述了一篇关于 Vision Transformer 新颖框架的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-12 00:00

ViT-Up: Faithful Feature Upsampling for Vision Transformers

ViT-Up is a feature upsampling framework for Vision Transformers that uses layer-wise query construction from hidden states to improve dense prediction tasks, outperforming existing image-guided methods.

报道来源 [1]

ViT-Up: Faithful Feature Upsampling for Vision Transformers

相关实体

相关话题