一位 Reddit 用户正在寻求在 8x NVIDIA B200 GPU 配置上运行 Kimi-K2.6 模型的性能估算。他们特别关注具有 32 个用户并发的超长输入和输出序列的吞吐量数据。用户还询问了使用 vLLM 或 SGLang 的潜在性能差异,以及跨 InfiniBand 的分布式设置与单个 NVLink 节点相比的性能。 AI
影响 为理解大型模型在先进硬件上的潜在实际性能提供见解,为部署策略提供信息。
排序理由 用户查询特定模型和硬件配置的预期性能。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →