研究人员推出了一种新颖的稀疏语言模型架构——大型查找层(L$^3$),旨在通过使用静态令牌路由来改进混合专家(MoE)模型。这种方法通过在嵌入中缓存信息,使模型能够有效地平衡内存和计算,提供了一种系统友好的设计,可实现更快的训练和CPU卸载推理。在拥有高达26亿活跃参数的Transformer上的实验表明,L$^3$在语言建模和下游任务上的表现优于密集模型和同等稀疏度的MoE模型。 AI
影响 引入了一种新的稀疏模型架构方法,有望在效率和性能上超越现有的MoE方法。
排序理由 该集群包含一篇详细介绍新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →