PulseAugur
实时 16:57:49
实体 Decoupled Mixture-of-Experts

Decoupled Mixture-of-Experts

PulseAugur coverage of Decoupled Mixture-of-Experts — every cluster mentioning Decoupled Mixture-of-Experts across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_90876 ·

    新研究探索高效的专家混合模型

    研究人员提出了几种新颖的方法来增强专家混合(MoE)语言模型的效率和能力。一种名为“专家绑定”(Expert Tying)的方法通过在Transformer层之间共享专家参数来减少内存占用,同时对性能影响最小,该方法在OLMoE、Qwen3和DeepSeek等模型上进行了评估。另一种技术“Mosaic”通过使用无数据知识蒸馏(via MoE)来训练全局模型,解决了联邦学习中的数据和模型异构性问题。此外,“解耦专家混合”(Decoupl…