PulseAugur
实时 03:52:12
English(EN) ParallelKernelBench: Frontier LLMs can't write fast multi-GPU kernels (yet)

前沿大语言模型在多GPU内核生成方面遇到困难,新基准测试揭示

一项名为ParallelKernelBench (PKB) 的新基准测试已被开发出来,用于评估前沿大语言模型生成高效多GPU内核的能力。对GPT-5.5、Gemini 3 Pro和Opus 4.7等模型的测试显示出显著的性能差距,只有不到三分之一的问题得到正确解决,而其中只有不到四分之一的性能优于简单的基线。该基准测试侧重于用NVLink上的直接CUDA内核替换PyTorch + NCCL,解决了经常成为AI推理瓶颈的关键通信开销。 AI

影响 凸显了当前大语言模型在优化多GPU通信方面的局限性,这是大规模AI推理的关键瓶颈。

排序理由 该项目描述了一个用于评估大语言模型生成代码的新基准测试和评估框架,包括前沿模型的性能结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 Together AI blog 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

前沿大语言模型在多GPU内核生成方面遇到困难,新基准测试揭示

报道来源 [1]

  1. Together AI blog TIER_1 English(EN) ·

    ParallelKernelBench:前沿大模型尚无法(目前)编写快速的多 GPU 内核

    ParallelKernelBench tests whether LLMs can write fast multi-GPU CUDA kernels across 87 real workloads. The best model solves under a third, but a few generated kernels beat any public implementation.