English(EN) Single-shot generation still surfaces net-new kernels with no public reference: NeMo vocab-parallel log-probs, Hyena context parallelism, SAM 3 mask suppression

Together AI 发布用于 LLM 推理的开源并行内核构建器

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-23 20:43

Together AI 发布了并行内核构建器 (PKB)，这是一个旨在优化大型语言模型推理性能的开源工具。PKB 可以识别并生成新颖的内核，例如用于 NeMo 词汇并行 log-probs 和 Hyena 上下文并行的内核，这些内核并未公开文档化。该工具已展示出显著的加速效果，其中一个内核的性能从标准的 320.6µs 提升至 87.9µs，并且该项目鼓励社区贡献。 AI

影响优化 LLM 推理性能，可能带来更快、更高效的 AI 部署。

排序理由发布用于优化 LLM 推理的开源工具。

在 X — Together (inference / OSS) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

X — Together (inference / OSS) TIER_1 English(EN) · togethercompute · 2026-06-23 20:43

Single-shot generation still surfaces net-new kernels with no public reference: NeMo vocab-parallel log-probs, Hyena context parallelism, SAM 3 mask suppression

Single-shot generation still surfaces net-new kernels with no public reference: NeMo vocab-parallel log-probs, Hyena context parallelism, SAM 3 mask suppression. One GEMM + All-Gather kernel hit 87.9µs vs 320.6µs for NCCL. PKB is open. Read more and contribute below. Blog: …

报道来源 [1]

Single-shot generation still surfaces net-new kernels with no public reference: NeMo vocab-parallel log-probs, Hyena context parallelism, SAM 3 mask suppression

相关实体

相关话题