PulseAugur
实时 14:26:06
实体 DOT-MoE

DOT-MoE

PulseAugur coverage of DOT-MoE — every cluster mentioning DOT-MoE across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_65578 ·

    DOT-MoE框架将密集模型转换为稀疏MoE

    研究人员推出了一种新框架DOT-MoE,可将密集大型语言模型转换为稀疏专家混合(MoE)架构。该方法将密集层的分解构建为可微分最优传输问题,使用可微分Sinkhorn-Knopp迭代来管理专家容量,并使用Straight-Through Estimators进行神经元到专家的分配和token路由的端到端学习。实验表明,DOT-MoE的性能优于现有方法,在保持密集模型90%性能的同时,将激活参数减半。