DeepSeek 发布了其 V4 模型,该模型通过一个名为 MegaMoE 的新系统进行了显著优化。该系统使用一个 1400 行的融合 CUDA 内核,通过对模型层内的通信和计算进行细粒度流水线处理来提高性能。这种方法解决了 Mixture-of-Experts (MoE) 模型中通常需要大量 all-to-all 通信的挑战。 AI
影响 为 Mixture-of-Experts 架构引入了新颖的优化,可能提高大型模型的训练效率和推理速度。
排序理由 Frontier-lab 模型发布,附带系统卡。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →