English(EN) CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

LLM框架自动生成GPU内核，性能超越PyTorch

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员开发了CuTeGen，一个旨在自动化创建和优化高性能GPU内核的新框架。该代理系统采用生成、测试和优化内核的结构化工作流程，专门针对CuTe抽象层。通过在内核的高层结构稳定后再提供低层性能反馈，CuTeGen旨在克服先前基于LLM的方法的局限性。在KernelBench基准测试中，CuTeGen展示了比PyTorch平均1.71倍的速度提升，并超越了之前的代理基线。 AI

影响自动化复杂的GPU内核开发，可能加速机器学习系统性能并减少对专家程序员的依赖。

排序理由该集群包含一篇详细介绍GPU内核生成新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Tara Saba, Zhiyang Chen, Jikai Jason Li, Anne Ouyang, Xujie Si, Fan Long · 2026-06-05 04:00

CuTeGen：基于LLM的智能体框架，使用CuTe生成和优化高性能GPU内核

arXiv:2604.01489v2 Announce Type: replace Abstract: High-performance GPU kernels are critical to modern machine learning systems, yet developing them remains a manual, expert-driven process. Recent work has explored using LLMs to automate kernel generation, but generated kernels …

报道来源 [1]

CuTeGen：基于LLM的智能体框架，使用CuTe生成和优化高性能GPU内核

相关实体

相关话题