一个新实现的、完全用 Triton 编写的 Fused Mixture-of-Experts (MoE) dispatch kernel,其性能达到了 Stanford 的 Megablocks 库的 89-131%。该 kernel 尤其值得注意的是,无需任何代码修改即可在 AMD MI300X 硬件上运行。主要优化在于融合了 gate 和 projection 操作,通过将中间结果保留在寄存器中,显著减少了全局内存流量。 AI
影响 实现了更高效的 MoE 模型推理,有可能在包括 AMD GPU 在内的多样化硬件上提升性能。
排序理由 该集群描述了一种特定 AI 模型架构的新 kernel 实现和基准测试结果,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →