English(EN) CLIMP: Contrastive Language-Image Mamba Pretraining

CLIMP：基于 Mamba 的视觉语言模型超越 OpenAI 的 CLIP

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出 CLIMP，这是一种新颖的对比语言-图像预训练模型，它仅使用 Mamba 架构，摒弃了传统的 Vision Transformer。这种新方法解决了 Vision Transformer 中存在的诸如分辨率二次方缩放和易受虚假关联影响等局限性。与 OpenAI 的 CLIP-ViT-B 相比，CLIMP 在跨模态检索和分布外鲁棒性方面表现出更优越的性能，同时在内存和 FLOPs 方面也提供了更高的效率。该模型的自回归文本编码器通过实现密集字幕检索，进一步增强了其能力。 AI

影响这项研究表明，Mamba 架构是视觉语言任务中 Transformer 的可行且高效的替代方案，可能影响未来的模型开发。

排序理由介绍新模型架构和基准测试结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Nimrod Shabtay, Itamar Zimerman, Eli Schwartz, Raja Giryes · 2026-06-30 04:00

CLIMP：对比语言-图像 Mamba 预训练

arXiv:2601.06891v2 Announce Type: replace Abstract: Contrastive Language-Image Pre-training (CLIP) relies on Vision Transformers whose attention mechanism is susceptible to spurious correlations, and scales quadratically with resolution. To address these limitations, We present C…

报道来源 [1]

CLIMP：对比语言-图像 Mamba 预训练

相关实体

相关话题