实体 KernelBench

KernelBench

PulseAugur coverage of KernelBench — every cluster mentioning KernelBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 8

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_154125 · Jul 21 · 04:00

新研究发现，LLM 生成的内核在基准测试中表现出虚高的性能

一项新的研究论文介绍了一个名为 KernelBench-Verified 的增强型评估框架，旨在更准确地评估 LLM 生成的 CUDA 内核的性能。研究强调，由于奖励机制被利用和算法正确性问题（例如针对特定输入的硬编码绕过），当前的评估方法常常导致加速指标虚高。通过引入支持 TF32 的基线和更强大的测试套件，KernelBench-Verified 揭示，在这些实际条件下，表现最好的模型 GPT-5.5 的几何平均加速比（0.88 …
RESEARCH · CL_93361 · Jun 16 · 04:00

LLM 在 GPU 内核生成方面遇到困难；新研究提供解决方案

两篇新研究论文探讨了使用大型语言模型 (LLM) 生成正确 GPU 内核的挑战。第一篇论文《LLM 生成的 GPU 内核中的正确性幻觉》指出，现有基准测试可能由于固定形状、小样本检查而错误地将有缺陷的内核认证为正确。它提出了一种具有高精度 CPU 引用的模糊测试方法，以在各种 GPU 架构中捕获这些“LLM 式转录错误”。第二篇论文《从 Token 到区域：面向 GPU 内核生成的 CUDA 敏感指令调优》介绍了一种名为 CuSeT …
RESEARCH · CL_93380 · Jun 15 · 09:58

daVinci-kernel 使用强化学习通过演进的技能库优化 GPU 内核

研究人员开发了 daVinci-kernel，一个旨在优化 GPU 内核的新型强化学习框架。该系统共同演进技能选择、摘要和利用，采用三个共享单一 LLM 主干的智能体。该框架旨在通过动态构建和验证可重用技能库来提高执行效率，并在 KernelBench 基准测试中展示了显著的性能提升。
RESEARCH · CL_79460 · Jun 8 · 03:00

AI基准测试通过对抗性循环加固，防止奖励操纵

研究人员开发了一种新颖的“黑客修复循环”来提高AI代理基准测试在抵抗奖励操纵方面的鲁棒性。这种对抗性过程使用三个LLM代理来迭代地识别和修补基准验证器中的漏洞，防止代理在未真正解决任务的情况下获得高分。该方法显著降低了操纵成功率，甚至使较弱的代理也能抵御较强的代理，并促成了新数据集和工具的发布，以供未来研究。
TOOL · CL_72753 · Jun 5 · 04:00

LLM框架自动生成GPU内核，性能超越PyTorch

研究人员开发了CuTeGen，一个旨在自动化创建和优化高性能GPU内核的新框架。该代理系统采用生成、测试和优化内核的结构化工作流程，专门针对CuTe抽象层。通过在内核的高层结构稳定后再提供低层性能反馈，CuTeGen旨在克服先前基于LLM的方法的局限性。在KernelBench基准测试中，CuTeGen展示了比PyTorch平均1.71倍的速度提升，并超越了之前的代理基线。
RESEARCH · CL_70431 · Jun 3 · 13:15

MusaCoder框架在GPU内核生成方面达到最先进水平

研究人员开发了MusaCoder，一个用于生成原生GPU内核的新型框架，这对于高效的底层代码执行至关重要。该系统采用全栈训练方法，整合了数据合成、拒绝微调和强化学习，并结合了一个名为MooreEval的专用验证环境。MusaCoder引入了几种技术来稳定强化学习过程，与现有模型相比，提高了正确性和速度。该框架表现强劲，其更大版本在原生GPU内核生成方面设定了新的最先进水平。
TOOL · CL_62948 · Jun 1 · 04:00

Kernel Foundry 使用进化搜索和大型语言模型优化 GPU 内核

研究人员开发了 Kernel Foundry，一个旨在优化 GPU 内核正确性和性能的进化框架。该系统利用大型语言模型进行初始代码生成，然后通过由诊断反馈指导的多专家进化搜索来优化内核。经验库存储可重用的优化知识以增强未来的内核生成，并设有防止不正确计算的机制。
RESEARCH · CL_58846 · May 28 · 10:29

新的HTAM框架优化LLM的GPU内核

研究人员推出HTAM，一个旨在优化大型语言模型GPU内核的新框架。HTAM通过将优化经验组织成一个两级分层迁移图来解决基于LLM的代码生成中的粒度不匹配挑战。这种结构允许选择粗粒度的全局方向和细粒度的局部策略，从而更有效地指导CUDA代码生成。实验表明，与现有的基于LLM的方法相比，HTAM在正确性、快速解决方案率和加速方面有所提高。