研究人员开发了一种名为 REDI(Relevance for DINOv3 Token Reduction)的新方法,通过减少 Patch Token 的数量来提高 Vision Transformer 的效率。REDI 将 DINOv3 Patch 表示量化为视觉词汇表,并使用源自 TF-IDF 的类条件语料库分数来对重要 Patch 进行排序和选择。当应用于 DINOv3 ViT-B/16 主干时,这种方法实现了 46.8% 的序列缩减,在 ImageNet-1K 上获得了 84.706% 的 Top-1 准确率,优于密集基线和仅使用注意力或 TF-IDF 的方法。 AI
影响 该方法可能导致在资源受限环境中更有效地部署 Vision Transformer 模型。
排序理由 该集群描述了在 arXiv 论文中提出的一种优化 Vision Transformer 模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →