研究人员推出了一种新框架DOT-MoE,可将密集大型语言模型转换为稀疏专家混合(MoE)架构。该方法将密集层的分解构建为可微分最优传输问题,使用可微分Sinkhorn-Knopp迭代来管理专家容量,并使用Straight-Through Estimators进行神经元到专家的分配和token路由的端到端学习。实验表明,DOT-MoE的性能优于现有方法,在保持密集模型90%性能的同时,将激活参数减半。 AI
影响 通过将密集架构转换为稀疏MoE,实现了更高效的大型语言模型推理。
排序理由 这是一篇详细介绍模型架构转换新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →