PulseAugur
实时 08:44:45
English(EN) Kimi K2.6 on 8×B200: expected vLLM/SGLang throughput?

查询 Kimi-K2.6 在 8x B200 GPU 上的性能

一位 Reddit 用户正在寻求在 8x NVIDIA B200 GPU 配置上运行 Kimi-K2.6 模型的性能估算。他们特别关注具有 32 个用户并发的超长输入和输出序列的吞吐量数据。用户还询问了使用 vLLMSGLang 的潜在性能差异,以及跨 InfiniBand 的分布式设置与单个 NVLink 节点相比的性能。 AI

影响 为理解大型模型在先进硬件上的潜在实际性能提供见解,为部署策略提供信息。

排序理由 用户查询特定模型和硬件配置的预期性能。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Acceptable-State-271 ·

    Kimi K2.6 在 8×B200 上:预期的 vLLM/SGLang 吞吐量?

    <!-- SC_OFF --><div class="md"><p>I’m planning to run <strong>moonshotai/Kimi-K2.6</strong> on <strong>8×NVIDIA B200</strong> with <strong>vLLM or SGLang</strong>, likely using <strong>NVFP4(or original QAT model)</strong>.</p> <p>What real throughput should I expect for:</p> <ul…