PulseAugur
实时 21:50:35
English(EN) Cross-Platform Fused MoE Dispatch in Triton: Portable Expert Routing Without CUDA [R]

TritonMoE 内核实现跨平台 MoE 推理

研究人员开发了 TritonMoE,这是一种用于专家混合(MoE)模型的新推理内核,完全使用 OpenAI 的 Triton 语言编写。该内核实现了跨平台兼容性,无需供应商特定的代码即可在 NVIDIAAMD 硬件上运行。它展示了显著的性能提升,在较短的 token 序列吞吐量方面优于 Megablocks 等现有方法,尽管在非常长的上下文或大量专家方面存在局限性。 AI

影响 实现了跨不同硬件架构的专家混合模型的更高效、更便携的推理。

排序理由 该集群描述了一篇关于 MoE 模型新颖推理内核的详细研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/MachineLearning TIER_1 English(EN) · /u/bassrehab ·

    Triton 中的跨平台融合 MoE 调度:无需 CUDA 的可移植专家路由 [R]

    <!-- SC_OFF --><div class="md"><p>New preprint. A Mixture-of-Experts inference kernel (TritonMoE) written entirely in OpenAI Triton, targeting portability across NVIDIA and AMD without vendor-specific code.</p> <p>Highlights:</p> <ul> <li>A fused gate+up GEMM computes both SwiGLU…