PulseAugur
实时 14:08:21
English(EN) AMD ATOM + ATOMesh: Prefill/decode Disaggregation on ROCm

AMD 发布 ATOM + ATOMesh 以支持 ROCm LLM 服务和分离

AMD 发布了 ATOMATOMesh,这是一个专为其 Instinct GPU 和 ROCm 软件设计的新 LLM 服务堆栈。该堆栈引入了一种称为预填充/解码分离的技术,该技术将计算密集型的预填充阶段与内存带宽密集型的解码阶段分离到不同的 GPU 池上。此优化旨在通过允许每个阶段更有效地利用硬件资源来提高推理效率,这与在单个 GPU 池上运行两者的传统方法不同。 AI

影响 此次发布为 LLM 服务提供了一个新的基础设施选项,有可能提高 AMD 硬件上的推理效率。

排序理由 这是针对特定硬件和软件的产品发布,而不是前沿模型发布或重大的行业性事件。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

AMD 发布 ATOM + ATOMesh 以支持 ROCm LLM 服务和分离

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · pueding ·

    AMD ATOM + ATOMesh: Prefill/decode Disaggregation on ROCm

    <p> </p> <p><strong>What:</strong> AMD shipped <strong>ATOM + ATOMesh</strong>, a ROCm-native LLM serving stack whose headline trick is <strong>prefill/decode disaggregation</strong> — splitting the two phases of inference onto separate pools of GPUs instead of crowding them onto…