English(EN) Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

新的SPARE方法以最小的性能损失削减VLM视觉令牌

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:45

研究人员开发了SPARE，一种通过剪枝视觉令牌来降低视觉语言模型（VLMs）计算负载的新颖方法。与忽略令牌幅度的先前最大化多样性策略不同，SPARE将令牌缩减重新构建为子空间重建问题，从而最小化重建误差。该方法还包含一个“反相关性”标准，识别那些尽管与图像-文本相关性较低，但能更好地保留上下文信息的令牌。实验表明，SPARE可以在不进行额外训练的情况下，从LLaVA等模型中移除高达94%的视觉令牌，同时保持95%的基线性能。 AI

影响该方法可以显著降低部署VLMs的计算成本，使其在各种应用中更易于访问和更高效。

排序理由该集群包含一篇详细介绍优化VLMs新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Dong-Wan Choi · 2026-06-17 04:45

超越多样性：视觉令牌修剪作为高效VLM的子空间重建

Despite their remarkable performance, Vision Language Models (VLMs) incur substantial computational overhead due to the large number of visual tokens. While diversity maximization has become a dominant strategy for token reduction, existing methods rely on cosine-based normalized…

报道来源 [1]

超越多样性：视觉令牌修剪作为高效VLM的子空间重建

相关实体

相关话题