PulseAugur
实时 06:11:16
English(EN) Optimizing CUDA like a Human: Micro-Profiling Tools as Expert Surrogates for LLM-Based GPU Kernel Optimization

新系统 KernelPro 使用 LLM 自主优化 GPU 内核代码

研究人员开发了 KernelPro,一个旨在优化大型语言模型 GPU 内核代码的自主系统。该系统集成了 LLM 代码生成、硬件剖析器反馈和专用分析工具,以迭代地提高性能。KernelPro 引入了新颖的组件,例如用于可操作指导的语义反馈算子、用于高效瓶颈分析的两阶段工具调用架构,以及直接的 CuTe 源级代码生成。该系统在基准数据集上展示了显著的加速,并显示出优于专家优化内核的改进,同时还关注能源效率。 AI

影响 该系统通过优化底层 GPU 计算,可以显著加速高性能 AI 模型的开发和部署。

排序理由 该集群描述了一篇研究论文,其中详细介绍了一个用于优化 GPU 内核代码的新系统。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新系统 KernelPro 使用 LLM 自主优化 GPU 内核代码

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Jiading Gai, Shuai Zhang, Kaj Bostrom, Jin Huang, Vihang Patil, Haoyang Fang, Bernie Wang, Huzefa Rangwala, George Karypis ·

    像人类一样优化 CUDA:微观剖析工具作为基于 LLM 的 GPU 内核优化的专家代理

    arXiv:2606.26453v1 Announce Type: new Abstract: We present KernelPro, a closed-loop multi-agent system that automatically generates, profiles, and iteratively optimizes GPU kernel code by integrating large language model (LLM) code generation with hardware profiler feedback and p…