English(EN) RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction

RD-ViT 降低分割数据需求，参数更少，性能优于标准 ViT

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-05 17:21

研究人员开发了 RD-ViT，一种用于语义分割任务的新型循环深度视觉Transformer。该架构通过使用一个共享的、循环多次的Transformer块，显著降低了数据依赖性，这与需要为每一层使用独特参数的传统视觉Transformer不同。RD-ViT 结合了自适应计算时间和混合专家等技术来提高效率和专业化，在心脏MRI分割基准测试中，以更少的数据和更少的参数展示了改进的性能。 AI

影响引入了一种更具数据效率的视觉Transformer方法，有可能降低在资源受限环境中部署分割模型的门槛。

排序理由该集群包含一篇关于语义分割新模型架构的arXiv预印本。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Renjie He · 2026-05-06 04:00

RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction

arXiv:2605.03999v1 Announce Type: new Abstract: Vision Transformers (ViTs) achieve state-of-the-art segmentation accuracy but require large training datasets because each layer has unique parameters that must be learned independently. We present RD-ViT, a Recurrent-Depth Vision T…
arXiv cs.CV TIER_1 English(EN) · Renjie He · 2026-05-05 17:21

RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction

Vision Transformers (ViTs) achieve state-of-the-art segmentation accuracy but require large training datasets because each layer has unique parameters that must be learned independently. We present RD-ViT, a Recurrent-Depth Vision Transformer that adapts the Recurrent-Depth Trans…

报道来源 [2]

RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction

RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction

相关实体

相关话题