AMD 发布了 ATOM 和 ATOMesh,这是一个专为其 Instinct GPU 和 ROCm 软件设计的新 LLM 服务堆栈。该堆栈引入了一种称为预填充/解码分离的技术,该技术将计算密集型的预填充阶段与内存带宽密集型的解码阶段分离到不同的 GPU 池上。此优化旨在通过允许每个阶段更有效地利用硬件资源来提高推理效率,这与在单个 GPU 池上运行两者的传统方法不同。 AI
影响 此次发布为 LLM 服务提供了一个新的基础设施选项,有可能提高 AMD 硬件上的推理效率。
排序理由 这是针对特定硬件和软件的产品发布,而不是前沿模型发布或重大的行业性事件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →