Anyscale 为其 vLLM 服务引擎引入了新的容错功能,该引擎与 Ray Serve 集成。此增强功能专门解决了部署大型专家混合(MoE)模型的挑战,这些模型被分片到多个 GPU 上。当一个数据并行(DP)组中的单个 GPU 发生故障时,新系统现在可以识别并重新启动构成该 DP 组的整个 GPU 组,从而防止整个部署变得不可用。 AI
影响 提高了服务日益普及的大型复杂专家混合(MoE)模型的可靠性和运营效率。
排序理由 这是基础设施工具的产品更新,而不是新的模型发布或核心研究。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →