English(EN) Achieving Up to 67% Cost Savings with Prefill-Decode Disaggregation Using Ray + vLLM on AMD MI325X

Anyscale 通过在 AMD 上分离预填充-解码来降低 LLM 服务成本

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 22:46

Anyscale 通过分离推理的预填充和解码阶段，在 LLM 服务方面实现了显著的成本节省。该方法将提示处理与 token 生成分开，减少了干扰并提高了吞吐量。虽然这种方法可以降低高达 67% 的成本并提高每秒查询次数 2.3 倍，但它会增加操作复杂性，并可能略微增加首次 token 的时间。 AI

影响优化 LLM 服务基础设施可以降低运营成本并缩短响应时间，从而可能加速 AI 应用程序的广泛采用。

排序理由文章详细介绍了优化 LLM 服务性能和成本的技术方法，包括实验结果和见解。[lever_c_demoted from research: ic=1 ai=0.7]

在 Anyscale blog 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Anyscale blog TIER_1 English(EN) · 2026-06-10 22:46

使用 Ray + vLLM 在 AMD MI325X 上通过预填充-解码分离实现高达 67% 的成本节省

Boost LLM Inference on AMD MI325X with Ray Serve and vLLM. Up to 2.7x More Throughput and 67% Lower Compute Costs

报道来源 [1]

使用 Ray + vLLM 在 AMD MI325X 上通过预填充-解码分离实现高达 67% 的成本节省

相关实体

相关话题