PulseAugur
实时 11:01:24
English(EN) MPK: A Compiler and Runtime for Mega-Kernelizing Tensor Programs

MPK编译器将多GPU推理融合为单个大规模内核

研究人员开发了MPK,一个新颖的编译器和运行时系统,旨在通过将操作转换为单个高性能的大规模内核来优化多GPU模型推理。该系统利用SM级别的图表示来实现高级优化,如跨运算符软件流水线和计算与通信的细粒度重叠。评估表明,MPK显著降低了端到端推理延迟,实现了高达1.7倍的提升,并将LLM推理性能推向更接近硬件极限的水平。 AI

影响 优化LLM推理性能,可能降低AI算子的延迟并提高硬件利用率。

排序理由 该集群包含一篇学术论文,详细介绍了一种用于优化张量程序的新编译器和运行时系统。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Xinhao Cheng, Zhihao Zhang, Yu Zhou, Jianan Ji, Jinchen Jiang, Zepeng Zhao, Ziruo Xiao, Zihao Ye, Yingyi Huang, Ruihang Lai, Hongyi Jin, Bohan Hou, Mengdi Wu, Yixin Dong, Anthony Yip, Zihao Ye, Songting Wang, Wenqin Yang, Xupeng Miao, Tianqi Chen, Zhihao… ·

    MPK: A Compiler and Runtime for Mega-Kernelizing Tensor Programs

    arXiv:2512.22219v2 Announce Type: replace-cross Abstract: We introduce Mirage Persistent Kernel (MPK), the first compiler and runtime system that automatically transforms multi-GPU model inference into a single high-performance mega-kernel. MPK introduces an SM-level graph repres…