研究人员开发了 KernelPro,一个旨在优化大型语言模型 GPU 内核代码的自主系统。该系统集成了 LLM 代码生成、硬件剖析器反馈和专用分析工具,以迭代地提高性能。KernelPro 引入了新颖的组件,例如用于可操作指导的语义反馈算子、用于高效瓶颈分析的两阶段工具调用架构,以及直接的 CuTe 源级代码生成。该系统在基准数据集上展示了显著的加速,并显示出优于专家优化内核的改进,同时还关注能源效率。 AI
影响 该系统通过优化底层 GPU 计算,可以显著加速高性能 AI 模型的开发和部署。
排序理由 该集群描述了一篇研究论文,其中详细介绍了一个用于优化 GPU 内核代码的新系统。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →