研究人员推出了一种名为自适应层级视觉令牌选择(ALVTS)的新框架,旨在提高大型视觉语言模型(LVLM)的效率。与先前永久丢弃令牌的方法不同,ALVTS动态选择重要令牌进行进一步处理,同时允许不太关键的令牌跳过某些层。这种自适应方法在无需重新训练模型的情况下最大限度地减少了计算冗余。实验表明,ALVTS可以在LLaVA-1.5、LLaVA-NeXT和Qwen2.5-VL等基准测试中实现89%的令牌压缩率,同时保留原始模型96.7%的准确性。 AI
影响 该方法提供了一种显著降低LVLM计算负载的方式,可能支持更广泛的部署和更快的推理。
排序理由 该集群包含一篇详细介绍提高LVLM效率新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →