PulseAugur
实时 10:59:29
English(EN) Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

新的SPARE方法以最小的性能损失削减VLM视觉令牌

研究人员开发了SPARE,一种通过剪枝视觉令牌来降低视觉语言模型(VLMs)计算负载的新颖方法。与忽略令牌幅度的先前最大化多样性策略不同,SPARE将令牌缩减重新构建为子空间重建问题,从而最小化重建误差。该方法还包含一个“反相关性”标准,识别那些尽管与图像-文本相关性较低,但能更好地保留上下文信息的令牌。实验表明,SPARE可以在不进行额外训练的情况下,从LLaVA等模型中移除高达94%的视觉令牌,同时保持95%的基线性能。 AI

影响 该方法可以显著降低部署VLMs的计算成本,使其在各种应用中更易于访问和更高效。

排序理由 该集群包含一篇详细介绍优化VLMs新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的SPARE方法以最小的性能损失削减VLM视觉令牌

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Dong-Wan Choi ·

    超越多样性:视觉令牌修剪作为高效VLM的子空间重建

    Despite their remarkable performance, Vision Language Models (VLMs) incur substantial computational overhead due to the large number of visual tokens. While diversity maximization has become a dominant strategy for token reduction, existing methods rely on cosine-based normalized…