研究人员推出了一种名为 ViT-Up 的新颖框架,旨在增强 Vision Transformer (ViTs) 的特征上采样。该方法利用中间隐藏状态进行逐层查询构建,无需外部图像引导,从而避免了特征泄露和碎片化等问题。ViT-Up 能够预测任意连续图像坐标处的特征,从而在语义分割和深度估计等密集预测任务上获得更好的性能,并在 Cityscapes 和 SPair-71k 等基准测试中取得了显著的提升。 AI
影响 增强了 Vision Transformer 在密集预测任务中的能力,有望在语义分割和深度估计等领域提高性能。
排序理由 该集群描述了一篇关于 Vision Transformer 新颖框架的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →