研究人员开发了STORM,一种新颖的空间感知令牌缩减框架,旨在解决Mamba等视觉状态空间模型在进行令牌压缩时出现的性能下降问题。现有的缩减方法在空间上是不敏感的,会破坏这些模型至关重要的二维结构。STORM将缩减重新构建为对空间单元的结构化操作,在无需额外训练的情况下保留了网格拓扑和邻域连贯性。这个即插即用的模块显著提高了准确性恢复能力,尤其是在VMamba上实现了高达63.3%的提升,在PlainMamba上仅下降1.0%,使其性能与ViT相当。 AI
影响 提高了视觉状态空间模型的效率和准确性,有望改善计算机视觉任务的性能。
排序理由 该集群包含一篇详细介绍改进现有模型的新框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →