PulseAugur
实时 21:37:06
实体 DeepSeekMoE: Towards ultimate expert specialization in mixture-of-experts language models

DeepSeekMoE: Towards ultimate expert specialization in mixture-of-experts language models

PulseAugur coverage of DeepSeekMoE: Towards ultimate expert specialization in mixture-of-experts language models — every cluster mentioning DeepSeekMoE: Towards ultimate expert specialization in mixture-of-experts language models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
关系
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_02843 ·

    新的MoE架构提升效率和性能

    研究人员正在开发先进技术来改进专家混合(MoE)模型,特别关注解决领域转换和推理效率方面的挑战。一种受自由能原理和脉冲神经网络启发的方法,引入了时间记忆和预期路由,以显著增强领域转移期间的专家选择。其他研究则侧重于通过运行时感知调度框架和新颖的内核配置来优化MoE推理,以最大化吞吐量。此外,还在探索新的方法来管理异构专家大小并在微调过程中保留较少使用的专家的知识,旨在提高性能和资源利用率。