一项名为 KernelBench-X 的新基准测试已被开发出来,用于评估大型语言模型生成 GPU 内核的能力。该基准测试涵盖了 15 个类别中的 176 个任务,揭示了任务结构对正确性的影响比具体的生成方法更为显著。虽然迭代改进可以提高生成内核的编译率,但并不一定会提高其性能,而且许多正确的内核被发现比基线实现慢。 AI
影响 强调了 LLM 生成代码在效率和正确性方面的局限性,为改进硬件利用率指明了未来的研究方向。
排序理由 该集群包含一篇介绍用于评估 LLM 生成的 GPU 内核的新基准测试的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →