PulseAugur
实时 13:31:04

Compiler-first duality enables portable O(1) Mamba-2 inference

研究人员开发了一种优化 Mamba-2 推理的新方法,重点关注编译器优先的状态空间对偶性。这种方法实现了具有 $O(1)$ 复杂度的便携式自回归缓存,无需自定义 CUDA 或 Triton 内核。最终的单源推理路径在 JAX 中实现,在 Google Cloud TPU 和 NVIDIA GPU 上展示了显著的加速,实现了高硬件利用率并匹配了参考困惑度分数。 AI

影响 能够实现更快、更便携的大型状态空间模型推理,可能降低部署成本和复杂性。

排序理由 学术论文,详细介绍了状态空间模型的新颖推理优化技术。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Cosmo Santoni, Anmol Thapar ·

    Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

    arXiv:2603.09555v2 Announce Type: replace-cross Abstract: High-throughput Mamba-2 inference is usually tied to fused CUDA and Triton kernels, limiting portability across accelerator backends. We show that the state space duality (SSD) recurrence has a compiler-friendly structure:…