实体
KernelBench
KernelBench
PulseAugur coverage of KernelBench — every cluster mentioning KernelBench across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
主题
情绪 · 30 天
3 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
LLM框架自动生成GPU内核,性能超越PyTorch
研究人员开发了CuTeGen,一个旨在自动化创建和优化高性能GPU内核的新框架。该代理系统采用生成、测试和优化内核的结构化工作流程,专门针对CuTe抽象层。通过在内核的高层结构稳定后再提供低层性能反馈,CuTeGen旨在克服先前基于LLM的方法的局限性。在KernelBench基准测试中,CuTeGen展示了比PyTorch平均1.71倍的速度提升,并超越了之前的代理基线。
-
MusaCoder框架在GPU内核生成方面达到最先进水平
研究人员开发了MusaCoder,一个用于生成原生GPU内核的新型框架,这对于高效的底层代码执行至关重要。该系统采用全栈训练方法,整合了数据合成、拒绝微调和强化学习,并结合了一个名为MooreEval的专用验证环境。MusaCoder引入了几种技术来稳定强化学习过程,与现有模型相比,提高了正确性和速度。该框架表现强劲,其更大版本在原生GPU内核生成方面设定了新的最先进水平。
-
Kernel Foundry 使用进化搜索和大型语言模型优化 GPU 内核
研究人员开发了 Kernel Foundry,一个旨在优化 GPU 内核正确性和性能的进化框架。该系统利用大型语言模型进行初始代码生成,然后通过由诊断反馈指导的多专家进化搜索来优化内核。经验库存储可重用的优化知识以增强未来的内核生成,并设有防止不正确计算的机制。