PulseAugur
实时 12:41:49
English(EN) CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

LLM框架自动生成GPU内核,性能超越PyTorch

研究人员开发了CuTeGen,一个旨在自动化创建和优化高性能GPU内核的新框架。该代理系统采用生成、测试和优化内核的结构化工作流程,专门针对CuTe抽象层。通过在内核的高层结构稳定后再提供低层性能反馈,CuTeGen旨在克服先前基于LLM的方法的局限性。在KernelBench基准测试中,CuTeGen展示了比PyTorch平均1.71倍的速度提升,并超越了之前的代理基线。 AI

影响 自动化复杂的GPU内核开发,可能加速机器学习系统性能并减少对专家程序员的依赖。

排序理由 该集群包含一篇详细介绍GPU内核生成新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Tara Saba, Zhiyang Chen, Jikai Jason Li, Anne Ouyang, Xujie Si, Fan Long ·

    CuTeGen:基于LLM的智能体框架,使用CuTe生成和优化高性能GPU内核

    arXiv:2604.01489v2 Announce Type: replace Abstract: High-performance GPU kernels are critical to modern machine learning systems, yet developing them remains a manual, expert-driven process. Recent work has explored using LLMs to automate kernel generation, but generated kernels …