English(EN) ExFusion: Efficient Transformer Training via Multi-Experts Fusion

ExFusion 方法通过多专家融合提高 Transformer 训练效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-03 04:00

研究人员开发了 ExFusion，一种旨在提高 Transformer 模型效率的新型预训练方法。该方法在初始化期间将前馈网络 (FFN) 升级为多专家配置，并分配权重以供后续参数融合。在训练过程中，这些专家会融合为单个统一专家，与标准的密集训练相比，计算成本大大降低。训练后，融合专家消除了额外的存储和部署开销，并且在计算机视觉和自然语言处理任务上的实验结果证明了其有效性。 AI

影响该方法有望实现更高效的大型 AI 模型训练，降低计算成本和部署开销。

排序理由该集群包含一篇详细介绍 Transformer 模型训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Jiacheng Ruan, Daize Dong, Xiaoye Qu, Tong Zhu, Ting Liu, Yuzhuo Fu, Yu Cheng, Suncheng Xiang · 2026-07-03 04:00

ExFusion: Efficient Transformer Training via Multi-Experts Fusion

arXiv:2603.27965v2 Announce Type: replace Abstract: Mixture-of-Experts (MoE) models substantially improve performance by increasing the capacity of dense architectures. However, directly training MoE models requires considerable computational resources and introduces extra overhe…

报道来源 [1]

ExFusion: Efficient Transformer Training via Multi-Experts Fusion

相关实体

相关话题