研究人员开发了MPK,一个新颖的编译器和运行时系统,旨在通过将操作转换为单个高性能的大规模内核来优化多GPU模型推理。该系统利用SM级别的图表示来实现高级优化,如跨运算符软件流水线和计算与通信的细粒度重叠。评估表明,MPK显著降低了端到端推理延迟,实现了高达1.7倍的提升,并将LLM推理性能推向更接近硬件极限的水平。 AI
影响 优化LLM推理性能,可能降低AI算子的延迟并提高硬件利用率。
排序理由 该集群包含一篇学术论文,详细介绍了一种用于优化张量程序的新编译器和运行时系统。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →