Wafer.ai 已成功将 GLM5.2 部署在 AMD MI355X 硬件上,实现了 2626 tokens/秒/节点 的吞吐量和 213 tokens/秒 的单流推理速度。此次部署具有成本优势,MI355X GPU 的成本大约比 NVIDIA 的 Blackwell B300 低 2.75 倍。优化工作包括使用 AMD Quark 将 GLM5.2 量化到 MXFP4,并采用 sglang 推理框架,同时对 ROCm 的投机解码进行了特定修改。 AI
影响 加速了经济高效的推理解决方案的采用,可能降低部署大型语言模型的门槛。
排序理由 该集群详细介绍了在替代硬件上部署前沿模型的经济高效方案,突显了优化 AI 推理成本的重大行业趋势。
在 Hacker News — AI stories ≥50 points 阅读 →
AI 生成摘要 · Google Gemini · 来自 5 个来源。 我们如何撰写摘要 →