PulseAugur
实时 03:12:41
English(EN) Achieving Up to 67% Cost Savings with Prefill-Decode Disaggregation Using Ray + vLLM on AMD MI325X

Anyscale 通过在 AMD 上分离预填充-解码来降低 LLM 服务成本

Anyscale 通过分离推理的预填充和解码阶段,在 LLM 服务方面实现了显著的成本节省。该方法将提示处理与 token 生成分开,减少了干扰并提高了吞吐量。虽然这种方法可以降低高达 67% 的成本并提高每秒查询次数 2.3 倍,但它会增加操作复杂性,并可能略微增加首次 token 的时间。 AI

影响 优化 LLM 服务基础设施可以降低运营成本并缩短响应时间,从而可能加速 AI 应用程序的广泛采用。

排序理由 文章详细介绍了优化 LLM 服务性能和成本的技术方法,包括实验结果和见解。[lever_c_demoted from research: ic=1 ai=0.7]

在 Anyscale blog 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. Anyscale blog TIER_1 English(EN) ·

    使用 Ray + vLLM 在 AMD MI325X 上通过预填充-解码分离实现高达 67% 的成本节省

    Boost LLM Inference on AMD MI325X with Ray Serve and vLLM. Up to 2.7x More Throughput and 67% Lower Compute Costs