PulseAugur
实时 03:02:23
English(EN) My GLM-5.2-FP8 HGX-H200 SGLang docker deploy config

GLM-5.2-FP8 在 HGX-H200 上部署,支持 262k 上下文

一位用户分享了他们使用 SGLangHGX-H200 系统上部署 GLM-5.2-FP8Docker 配置。该配置实现了 262k 的上下文窗口和每秒 70 个 token 的吞吐量。用户指出,为了优化性能,禁用了一些标志,如 DP 和 moe-a2a-backend,并且由于 DSV3 架构上的 FP8 量化,官方 vLLM 配方不适用于 H200。 AI

影响 为优化特定硬件配置的大上下文窗口和吞吐量提供了见解。

排序理由 用户分享的特定模型和硬件设置的部署配置。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Soft-Wedding4595 ·

    我的 GLM-5.2-FP8 HGX-H200 SGLang docker 部署配置

    <!-- SC_OFF --><div class="md"><p>Halo lads. Name says it all. Right now, after 1-2 hours of experimenting, this is maximum i could squeeze out current hardware</p> <p>No, im not rich. Its my companies GPUs, just sharing my experience</p> <pre><code>docker run -d \ --name glm-5.2…