PulseAugur
实时 23:09:46
English(EN) Single-shot generation still surfaces net-new kernels with no public reference: NeMo vocab-parallel log-probs, Hyena context parallelism, SAM 3 mask suppression

Together AI 发布用于 LLM 推理的开源并行内核构建器

Together AI 发布了并行内核构建器 (PKB),这是一个旨在优化大型语言模型推理性能的开源工具。PKB 可以识别并生成新颖的内核,例如用于 NeMo 词汇并行 log-probs 和 Hyena 上下文并行的内核,这些内核并未公开文档化。该工具已展示出显著的加速效果,其中一个内核的性能从标准的 320.6µs 提升至 87.9µs,并且该项目鼓励社区贡献。 AI

影响 优化 LLM 推理性能,可能带来更快、更高效的 AI 部署。

排序理由 发布用于优化 LLM 推理的开源工具。

在 X — Together (inference / OSS) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Together AI 发布用于 LLM 推理的开源并行内核构建器

报道来源 [1]

  1. X — Together (inference / OSS) TIER_1 English(EN) · togethercompute ·

    Single-shot generation still surfaces net-new kernels with no public reference: NeMo vocab-parallel log-probs, Hyena context parallelism, SAM 3 mask suppression

    Single-shot generation still surfaces net-new kernels with no public reference: NeMo vocab-parallel log-probs, Hyena context parallelism, SAM 3 mask suppression. One GEMM + All-Gather kernel hit 87.9µs vs 320.6µs for NCCL. PKB is open. Read more and contribute below. Blog: …