English(EN) Accelerating Vision Foundation Models with Drop-in Depthwise Convolution

新的深度卷积加速视觉基础模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了一种通过用高效的深度卷积层替换Vision Transformer (ViT)骨干网络中的某些注意力头来加速视觉基础模型的新方法。这种即插即用的替换方法在图像分类和分割任务上实现了17-20%的推理速度提升，同时性能损失极小。该方法包括识别可替换头的策略以及用于恢复下游任务性能的微调程序，并公开了一个参考实现。 AI

影响加速视觉基础模型的推理，可能使其在资源受限的设备上得到更广泛的部署。

排序理由该集群包含一篇详细介绍加速现有模型的新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Carmelo Scribano, Mohammad Mahdi, Nedyalko Prisadnikov, Yuqian Fu, Giorgia Franchini, Danda Pani Paudel, Marko Bertogna, Luc Van Gool · 2026-05-22 04:00

Accelerating Vision Foundation Models with Drop-in Depthwise Convolution

arXiv:2605.22132v1 Announce Type: new Abstract: Pretrained vision foundation models deliver strong performance across tasks with limited fine-tuning. However, their Vision Transformer (ViT) backbones impose high inference costs, limiting deployment on resource-constrained devices…

报道来源 [1]

Accelerating Vision Foundation Models with Drop-in Depthwise Convolution

相关实体

相关话题