研究人员开发了 ViT-Up,一个用于改进 Vision Transformer (ViTs) 中特征上采样的新框架。与依赖外部图像引导的先前方法不同,ViT-Up 使用中间 ViT 隐藏状态来构建查询,从而能够在任意坐标处进行特征预测,同时保持与骨干特征的对齐。这种方法旨在克服 ViTs 在密集预测任务中因在大网格上计算成本高而带来的局限性。 AI
影响 ViT-Up 的特征上采样方法可以提高 Vision Transformer 在密集预测任务上的性能。
排序理由 该集群包含一篇详细介绍改进 Vision Transformer 特征上采样新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →