研究人员推出了一种名为Soft Mixture-of-Recursions (SoftMoR) 的新方法,通过使Vision Transformers (ViTs) 能够利用所有递归步骤的中间表示来增强它们。这种方法以Soft Recursive Vision Transformer (SR-ViT) 的形式实现,可以在参数增加极少的情况下创建更深入、更强大的ViTs。在ImageNet-1K上的实验表明,将SR-ViT-S的递归深度从一次增加到四次,可以将top-1准确率从79.83%提高到82.48%,同时使用的参数量远少于DeiT-B等大型模型。 AI
影响 这项研究提供了一种参数高效的方法来开发更强大的Vision Transformers,可能对计算机视觉应用产生影响。
排序理由 该集群包含一篇详细介绍改进Vision Transformers新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →