研究人员开发了 TritonMoE,这是一种用于专家混合(MoE)模型的新推理内核,完全使用 OpenAI 的 Triton 语言编写。该内核实现了跨平台兼容性,无需供应商特定的代码即可在 NVIDIA 和 AMD 硬件上运行。它展示了显著的性能提升,在较短的 token 序列吞吐量方面优于 Megablocks 等现有方法,尽管在非常长的上下文或大量专家方面存在局限性。 AI
影响 实现了跨不同硬件架构的专家混合模型的更高效、更便携的推理。
排序理由 该集群描述了一篇关于 MoE 模型新颖推理内核的详细研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →