PulseAugur
实时 09:17:48
English(EN) CLEAR-MoE: Shared-Basis Expert Extraction from Frozen Vision Transformers via Calibration-Driven Layer Selection

CLEAR-MoE 将冻结的 Vision Transformers 转换为稀疏 MoE 模型

研究人员开发了 CLEAR-MoE,这是一种新颖的训练后方法,可以将冻结的 Vision Transformers (ViTs) 转换为稀疏专家混合 (MoE) 模型,而无需更改原始骨干网络的权重。该技术涉及一个四阶段的流程,对前馈网络层进行评分和分解,训练轻量级路由器,并分派 token。在各种 ViT 骨干网络上进行的实验表明,CLEAR-MoE 可以保留几乎所有密集模型的准确性,其中共享的奇异值分解 (SVD) 基础对于保持性能至关重要。虽然路由和开销会导致 FFN 执行速度略有下降,但该方法在高效创建 MoE 模型方面显示出前景。 AI

影响 能够从现有的 Vision Transformers 高效创建稀疏专家混合模型,而无需重新训练。

排序理由 该集群包含一篇详细介绍新模型转换方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

CLEAR-MoE 将冻结的 Vision Transformers 转换为稀疏 MoE 模型

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Md Irtiza Hossain, Humaira Ayesha, Junaid Ahmed Sifat ·

    CLEAR-MoE:通过校准驱动的层选择从冻结的视觉 Transformer 中提取共享基础专家

    arXiv:2606.28516v1 Announce Type: new Abstract: We present CLEAR-MoE, a four-phase post-training pipeline that converts a frozen pretrained Vision Transformer (ViT) into a sparse Mixture-of-Experts (MoE) model without updating backbone weights. The pipeline (i) scores feed-forwar…