Zai 通过实施名为 ZCube 的新网络架构,显著提高了其 GLM-5.1 推理集群的性能并降低了成本。这一与清华大学和 HarnetsAI 合作开发的定制设计取代了标准的 ROFT 设置,解决了分布式推理过程中流量模式的低效率问题。其结果是硬件成本降低了 33%,GPU 推理吞吐量提高了 15%,同时延迟也大幅降低。 AI
影响 优化的 AI 推理网络架构可以降低运营成本并加快模型部署。
排序理由 该集群描述了对 AI 推理基础设施的技术改进,详细说明了具体的性能提升和成本降低,属于 AI 系统研究范畴。 [lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →