English(EN) Kimi K2.6 on 8×B200: expected vLLM/SGLang throughput?

查询 Kimi-K2.6 在 8x B200 GPU 上的性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 03:48

一位 Reddit 用户正在寻求在 8x NVIDIA B200 GPU 配置上运行 Kimi-K2.6 模型的性能估算。他们特别关注具有 32 个用户并发的超长输入和输出序列的吞吐量数据。用户还询问了使用 vLLM 或 SGLang 的潜在性能差异，以及跨 InfiniBand 的分布式设置与单个 NVLink 节点相比的性能。 AI

影响为理解大型模型在先进硬件上的潜在实际性能提供见解，为部署策略提供信息。

排序理由用户查询特定模型和硬件配置的预期性能。

在 r/LocalLLaMA 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Acceptable-State-271 · 2026-06-05 03:48

Kimi K2.6 在 8×B200 上：预期的 vLLM/SGLang 吞吐量？

<div class="md">I’m planning to run moonshotai/Kimi-K2.6 on 8×NVIDIA B200 with vLLM or SGLang, likely using NVFP4(or original QAT model). What real throughput should I expect for: <ul…

报道来源 [1]

Kimi K2.6 在 8×B200 上：预期的 vLLM/SGLang 吞吐量？

相关实体

相关话题