实体 Mixture-of-Parallelisms

Mixture-of-Parallelisms

PulseAugur coverage of Mixture-of-Parallelisms — every cluster mentioning Mixture-of-Parallelisms across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_123052 · Jul 3 · 04:00

新的MoP训练栈支持万亿参数MoE模型和1M上下文

研究人员推出了一种名为Mixture-of-Parallelisms (MoP) 的新型训练栈，旨在提高专家混合 (MoE) 模型的内存效率。该方法将各种现有和新的并行技术整合到MoE训练流水线的不同层和阶段。MoP针对CPU、GPU内存和通信带宽进行优化，使得使用相对较小的128x H200 GPU集群即可训练具有百万token上下文长度的万亿参数模型。实验结果表明，与标准基线相比，MoP实现了显著更高的每GPU吞吐量，并支持更长的上下文长度。

新的MoP训练栈支持万亿参数MoE模型和1M上下文