Compiler-first duality enables portable O(1) Mamba-2 inference

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 04:00

研究人员开发了一种优化 Mamba-2 推理的新方法，重点关注编译器优先的状态空间对偶性。这种方法实现了具有 $O(1)$ 复杂度的便携式自回归缓存，无需自定义 CUDA 或 Triton 内核。最终的单源推理路径在 JAX 中实现，在 Google Cloud TPU 和 NVIDIA GPU 上展示了显著的加速，实现了高硬件利用率并匹配了参考困惑度分数。 AI

影响能够实现更快、更便携的大型状态空间模型推理，可能降低部署成本和复杂性。

排序理由学术论文，详细介绍了状态空间模型的新颖推理优化技术。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Cosmo Santoni, Anmol Thapar · 2026-06-11 04:00

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

arXiv:2603.09555v2 Announce Type: replace-cross Abstract: High-throughput Mamba-2 inference is usually tied to fused CUDA and Triton kernels, limiting portability across accelerator backends. We show that the state space duality (SSD) recurrence has a compiler-friendly structure:…

报道来源 [1]

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

相关实体

相关话题