一项名为ParallelKernelBench (PKB) 的新基准测试已被开发出来,用于评估前沿大语言模型生成高效多GPU内核的能力。对GPT-5.5、Gemini 3 Pro和Opus 4.7等模型的测试显示出显著的性能差距,只有不到三分之一的问题得到正确解决,而其中只有不到四分之一的性能优于简单的基线。该基准测试侧重于用NVLink上的直接CUDA内核替换PyTorch + NCCL,解决了经常成为AI推理瓶颈的关键通信开销。 AI
影响 凸显了当前大语言模型在优化多GPU通信方面的局限性,这是大规模AI推理的关键瓶颈。
排序理由 该项目描述了一个用于评估大语言模型生成代码的新基准测试和评估框架,包括前沿模型的性能结果。[lever_c_demoted from research: ic=1 ai=1.0]
- CUDA
- Gemini 3 Pro
- GPT-5.5
- NCCL
- NVIDIA NeMo-RL
- NVLink
- Opus 4.7
- ParallelKernelBench
- PyTorch
- Together AI
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →