English(EN) My GLM-5.2-FP8 HGX-H200 SGLang docker deploy config

GLM-5.2-FP8 在 HGX-H200 上部署，支持 262k 上下文

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 18:03

一位用户分享了他们使用 SGLang 在 HGX-H200 系统上部署 GLM-5.2-FP8 的 Docker 配置。该配置实现了 262k 的上下文窗口和每秒 70 个 token 的吞吐量。用户指出，为了优化性能，禁用了一些标志，如 DP 和 moe-a2a-backend，并且由于 DSV3 架构上的 FP8 量化，官方 vLLM 配方不适用于 H200。 AI

影响为优化特定硬件配置的大上下文窗口和吞吐量提供了见解。

排序理由用户分享的特定模型和硬件设置的部署配置。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Soft-Wedding4595 · 2026-06-17 18:03

我的 GLM-5.2-FP8 HGX-H200 SGLang docker 部署配置

<div class="md"><p>Halo lads. Name says it all. Right now, after 1-2 hours of experimenting, this is maximum i could squeeze out current hardware</p> <p>No, im not rich. Its my companies GPUs, just sharing my experience</p> <pre><code>docker run -d \ --name glm-5.2…

报道来源 [1]

我的 GLM-5.2-FP8 HGX-H200 SGLang docker 部署配置

相关实体

相关话题