English(EN) EvoTensile: Evolutionary algorithms for AMD Tensile GEMM kernel tuning

EvoTensile 使用进化算法优化 AMD Tensile GEMM 内核

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 07:32

一款名为 EvoTensile 的新工具已被开发出来，用于优化 AMD Tensile GEMM 内核的性能，这对于 AI 模型训练和推理至关重要。EvoTensile 利用进化算法搜索最佳参数，从而带来显著的速度提升。例如，在 AMD 的 Strix Halo (gfx1151) 硬件上，EvoTensile 调优了 NT 布局内核，将性能从 20 TFLOPS 提升到 40 TFLOPS，接近理论性能上限。开发者希望该工具能被集成到主流 ROCm 库中以获得更广泛的应用。 AI

影响优化的内核可以带来更快的 AI 模型训练和推理速度，可能降低计算成本并加速开发周期。

排序理由该条目描述了一种用于优化硬件内核的新工具和方法，这是 AI 基础设施领域的一项研究级开发。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/StableDiffusion 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/StableDiffusion TIER_2 English(EN) · /u/woct0rdho · 2026-06-19 07:32

EvoTensile: Evolutionary algorithms for AMD Tensile GEMM kernel tuning

<div class="md"><p>There has been an effort to tune kernels in hipBLASLt so the most basic matmuls can run faster. It's known that on Strix Halo (gfx1151), GEMM with NN and TN input layouts (used in inference) are already well-tuned, while NT and TT layouts (used i…

报道来源 [1]

EvoTensile: Evolutionary algorithms for AMD Tensile GEMM kernel tuning

相关实体

相关话题