研究人员推出了一种新的文本引导开放词汇对象计数框架MambaCount,该框架利用空间稀疏状态空间对偶(S^4D)块来克服Transformer在处理密集场景和大尺度变化方面的局限性。MambaCount解决了Mamba中的因果建模问题和空间标记响应中的高熵问题,在线性复杂度下在FSC-147数据集上取得了最先进的性能。同时,RT-Counter为该任务提供了一个实时解决方案,通过视觉原型文本化模块和编织Transformer层来平衡准确性和效率,取得了具有竞争力的结果,同时速度更快、参数效率更高。此外,还提出了一个新的基准Robust-TOOC,用于评估在不利条件下的对象计数,以及Dual-TTT,一个旨在提高鲁棒性而不改变现有架构的测试时训练框架。 AI
影响 对象计数方面的这些进步可以提高AI理解和交互复杂视觉场景的能力,影响机器人、自动驾驶和图像分析等应用。
排序理由 多篇研究论文介绍了计算机视觉领域的新模型和基准。
- arXiv
- FSC-147
- Mamba
- MambaCount
- Multi-Granularity Prototypes (MGP)
- Spatial Sparse State Space Duality (S^4D) block
- Spatial Token Selection (STS) sub-block
- Dual-TTT
- Robust-TOOC
- RT-Counter
- transformers
- Visual Prototype Textualization (VPT) module
- Weaving Transformer (Weaformer) layers
AI 生成摘要 · Google Gemini · 来自 6 个来源。 我们如何撰写摘要 →