PulseAugur
实时 10:28:00
实体 Mixture-of-Parallelisms

Mixture-of-Parallelisms

PulseAugur coverage of Mixture-of-Parallelisms — every cluster mentioning Mixture-of-Parallelisms across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123052 ·

    新的MoP训练栈支持万亿参数MoE模型和1M上下文

    研究人员推出了一种名为Mixture-of-Parallelisms (MoP) 的新型训练栈,旨在提高专家混合 (MoE) 模型的内存效率。该方法将各种现有和新的并行技术整合到MoE训练流水线的不同层和阶段。MoP针对CPU、GPU内存和通信带宽进行优化,使得使用相对较小的128x H200 GPU集群即可训练具有百万token上下文长度的万亿参数模型。实验结果表明,与标准基线相比,MoP实现了显著更高的每GPU吞吐量,并支持更长的上下文长度。