一位用户分享了他们使用 SGLang 在 HGX-H200 系统上部署 GLM-5.2-FP8 的 Docker 配置。该配置实现了 262k 的上下文窗口和每秒 70 个 token 的吞吐量。用户指出,为了优化性能,禁用了一些标志,如 DP 和 moe-a2a-backend,并且由于 DSV3 架构上的 FP8 量化,官方 vLLM 配方不适用于 H200。 AI
影响 为优化特定硬件配置的大上下文窗口和吞吐量提供了见解。
排序理由 用户分享的特定模型和硬件设置的部署配置。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →