研究人员开发了CuTeGen,一个旨在自动化创建和优化高性能GPU内核的新框架。该代理系统采用生成、测试和优化内核的结构化工作流程,专门针对CuTe抽象层。通过在内核的高层结构稳定后再提供低层性能反馈,CuTeGen旨在克服先前基于LLM的方法的局限性。在KernelBench基准测试中,CuTeGen展示了比PyTorch平均1.71倍的速度提升,并超越了之前的代理基线。 AI
影响 自动化复杂的GPU内核开发,可能加速机器学习系统性能并减少对专家程序员的依赖。
排序理由 该集群包含一篇详细介绍GPU内核生成新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →