一款名为Lemonade的新软件已发布,它支持在AMD Strix Halo设备上使用神经网络处理单元(NPU)来运行大型语言模型。这使得混合模型成为可能,该模型利用NPU进行快速提示处理,并利用集成GPU进行并行执行,从而显著提高性能。这一进展对于一年前购买了这些设备的用户来说是向前迈出的重要一步,使他们能够充分利用硬件能力进行LLM推理。 AI
影响 通过利用NPU进行提示处理,从而在AMD Strix Halo设备上实现更快的LLM推理。
排序理由 一款新的软件工具使得之前未充分利用的硬件可用于LLM推理。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →