English(EN) Cross-Platform Fused MoE Dispatch in Triton: Portable Expert Routing Without CUDA [R]

TritonMoE 内核实现跨平台 MoE 推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 21:25

研究人员开发了 TritonMoE，这是一种用于专家混合（MoE）模型的新推理内核，完全使用 OpenAI 的 Triton 语言编写。该内核实现了跨平台兼容性，无需供应商特定的代码即可在 NVIDIA 和 AMD 硬件上运行。它展示了显著的性能提升，在较短的 token 序列吞吐量方面优于 Megablocks 等现有方法，尽管在非常长的上下文或大量专家方面存在局限性。 AI

影响实现了跨不同硬件架构的专家混合模型的更高效、更便携的推理。

排序理由该集群描述了一篇关于 MoE 模型新颖推理内核的详细研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/bassrehab · 2026-05-27 21:25

Triton 中的跨平台融合 MoE 调度：无需 CUDA 的可移植专家路由 [R]

<div class="md"><p>New preprint. A Mixture-of-Experts inference kernel (TritonMoE) written entirely in OpenAI Triton, targeting portability across NVIDIA and AMD without vendor-specific code.</p> <p>Highlights:</p> <ul> <li>A fused gate+up GEMM computes both SwiGLU…

报道来源 [1]

Triton 中的跨平台融合 MoE 调度：无需 CUDA 的可移植专家路由 [R]

相关实体

相关话题