研究人员开发了一种融合INT8 GEMM内核,可显著加速消费级安培GPU上的Diffusion Transformer。该新内核允许利用硬件的INT8张量核心,克服了之前使INT8比FP8和NF4替代方案慢的软件限制。优化后的内核实现了2.8-4.2倍更快的GEMM操作,并在更高分辨率下提供了约1.1倍的整体图像生成速度提升,使得在单个消费级GPU上生成1024px图像成为可能。 AI
影响 通过优化模型推理,在消费级硬件上实现更快的图像生成。
排序理由 该集群包含一篇学术论文,详细介绍了AI模型推理的新技术优化。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →