MoonMath AI 已开源一个用于 AMD MI300X GPU 的新型 bf16 前向注意力内核,该内核使用 HIP 编写。据报道,该内核在各种配置下均优于 AMD 自家的 AITER v3,速度提升高达 1.26 倍。性能提升归因于战略性的内存放置和一种新颖的单指令汇编包装器技术,该技术允许在利用编译器进行寄存器分配优化的同时,精确控制操作。这项进展已集成到 SGLang 中,以加速 Wan2.1 等视频扩散模型。 AI
影响 这个优化的内核可以加速 AMD 硬件上的 AI 推理,可能降低成本并增加采用率。
排序理由 发布了具有性能基准的专用 GPU 内核的开源版本。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →