研究人员推出 CLIMP,这是一种新颖的对比语言-图像预训练模型,它仅使用 Mamba 架构,摒弃了传统的 Vision Transformer。这种新方法解决了 Vision Transformer 中存在的诸如分辨率二次方缩放和易受虚假关联影响等局限性。与 OpenAI 的 CLIP-ViT-B 相比,CLIMP 在跨模态检索和分布外鲁棒性方面表现出更优越的性能,同时在内存和 FLOPs 方面也提供了更高的效率。该模型的自回归文本编码器通过实现密集字幕检索,进一步增强了其能力。 AI
影响 这项研究表明,Mamba 架构是视觉语言任务中 Transformer 的可行且高效的替代方案,可能影响未来的模型开发。
排序理由 介绍新模型架构和基准测试结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →