研究人员开发了 CLEAR-MoE,这是一种新颖的训练后方法,可以将冻结的 Vision Transformers (ViTs) 转换为稀疏专家混合 (MoE) 模型,而无需更改原始骨干网络的权重。该技术涉及一个四阶段的流程,对前馈网络层进行评分和分解,训练轻量级路由器,并分派 token。在各种 ViT 骨干网络上进行的实验表明,CLEAR-MoE 可以保留几乎所有密集模型的准确性,其中共享的奇异值分解 (SVD) 基础对于保持性能至关重要。虽然路由和开销会导致 FFN 执行速度略有下降,但该方法在高效创建 MoE 模型方面显示出前景。 AI
影响 能够从现有的 Vision Transformers 高效创建稀疏专家混合模型,而无需重新训练。
排序理由 该集群包含一篇详细介绍新模型转换方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- CLEAR-MoE
- DeiT-Base
- DeiT-Small
- DeiT-Tiny
- Imagenette
- k-means clustering
- Md. Irtiza Hossain
- singular value decomposition
- Vision Transformer
- ViT-Small
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →