PulseAugur
实时 04:08:03
English(EN) CLIMP: Contrastive Language-Image Mamba Pretraining

CLIMP:基于 Mamba 的视觉语言模型超越 OpenAI 的 CLIP

研究人员推出 CLIMP,这是一种新颖的对比语言-图像预训练模型,它仅使用 Mamba 架构,摒弃了传统的 Vision Transformer。这种新方法解决了 Vision Transformer 中存在的诸如分辨率二次方缩放和易受虚假关联影响等局限性。与 OpenAICLIP-ViT-B 相比,CLIMP 在跨模态检索和分布外鲁棒性方面表现出更优越的性能,同时在内存和 FLOPs 方面也提供了更高的效率。该模型的自回归文本编码器通过实现密集字幕检索,进一步增强了其能力。 AI

影响 这项研究表明,Mamba 架构是视觉语言任务中 Transformer 的可行且高效的替代方案,可能影响未来的模型开发。

排序理由 介绍新模型架构和基准测试结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

CLIMP:基于 Mamba 的视觉语言模型超越 OpenAI 的 CLIP

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Nimrod Shabtay, Itamar Zimerman, Eli Schwartz, Raja Giryes ·

    CLIMP:对比语言-图像 Mamba 预训练

    arXiv:2601.06891v2 Announce Type: replace Abstract: Contrastive Language-Image Pre-training (CLIP) relies on Vision Transformers whose attention mechanism is susceptible to spurious correlations, and scales quadratically with resolution. To address these limitations, We present C…