一款名为 EvoTensile 的新工具已被开发出来,用于优化 AMD Tensile GEMM 内核的性能,这对于 AI 模型训练和推理至关重要。EvoTensile 利用进化算法搜索最佳参数,从而带来显著的速度提升。例如,在 AMD 的 Strix Halo (gfx1151) 硬件上,EvoTensile 调优了 NT 布局内核,将性能从 20 TFLOPS 提升到 40 TFLOPS,接近理论性能上限。开发者希望该工具能被集成到主流 ROCm 库中以获得更广泛的应用。 AI
影响 优化的内核可以带来更快的 AI 模型训练和推理速度,可能降低计算成本并加速开发周期。
排序理由 该条目描述了一种用于优化硬件内核的新工具和方法,这是 AI 基础设施领域的一项研究级开发。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →