PulseAugur
实时 09:58:44
English(EN) REDI: Corpus Aware Patch Ranking for DINOv3 Token Reduction

新的 REDI 方法将 Vision Transformer 的 Token 数量减少 46.8%,同时提高了准确性

研究人员开发了一种名为 REDI(Relevance for DINOv3 Token Reduction)的新方法,通过减少 Patch Token 的数量来提高 Vision Transformer 的效率。REDI 将 DINOv3 Patch 表示量化为视觉词汇表,并使用源自 TF-IDF 的类条件语料库分数来对重要 Patch 进行排序和选择。当应用于 DINOv3 ViT-B/16 主干时,这种方法实现了 46.8% 的序列缩减,在 ImageNet-1K 上获得了 84.706% 的 Top-1 准确率,优于密集基线和仅使用注意力或 TF-IDF 的方法。 AI

影响 该方法可能导致在资源受限环境中更有效地部署 Vision Transformer 模型。

排序理由 该集群描述了在 arXiv 论文中提出的一种优化 Vision Transformer 模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 REDI 方法将 Vision Transformer 的 Token 数量减少 46.8%,同时提高了准确性

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Thomas Mandl ·

    REDI: Corpus Aware Patch Ranking for DINOv3 Token Reduction

    Most token reduction methods for Vision Transformers seek favorable tradeoffs between accuracy and efficiency by pruning, merging, or pooling patch tokens. REDI (Relevance for DINOv3 Token Reduction) studies this question through a controlled supervised reference: how should a fi…