English(EN) KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

新基准测试揭示 LLM 生成的 GPU 内核在正确性和效率方面存在不足

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-06 14:18

一项名为 KernelBench-X 的新基准测试已被开发出来，用于评估大型语言模型生成 GPU 内核的能力。该基准测试涵盖了 15 个类别中的 176 个任务，揭示了任务结构对正确性的影响比具体的生成方法更为显著。虽然迭代改进可以提高生成内核的编译率，但并不一定会提高其性能，而且许多正确的内核被发现比基线实现慢。 AI

影响强调了 LLM 生成代码在效率和正确性方面的局限性，为改进硬件利用率指明了未来的研究方向。

排序理由该集群包含一篇介绍用于评估 LLM 生成的 GPU 内核的新基准测试的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Han Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu · 2026-05-07 04:00

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

arXiv:2605.04956v1 Announce Type: new Abstract: LLM-based Triton kernel generation has attracted significant interest, yet a fundamental empirical question remains unanswered: where does this capability break down, and why? We present KernelBench-X, a benchmark designed to answer…
arXiv cs.LG TIER_1 English(EN) · Jun Zhu · 2026-05-06 14:18

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

LLM-based Triton kernel generation has attracted significant interest, yet a fundamental empirical question remains unanswered: where does this capability break down, and why? We present KernelBench-X, a benchmark designed to answer this question through category-aware evaluation…

报道来源 [2]

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

相关实体

相关话题