一款名为 MER 的新 Rust 推理引擎能够从 NVMe 存储高效地流式传输大型语言模型(如 Mixtral 8x7B)到性能较低且更便宜的虚拟机上。这种方法通过按需加载模型专家、将常用模型缓存到 RAM 中,避免了对高端 GPU 的需求,并在每小时 0.40 美元的虚拟机上实现了 3.32 tps 的速度。该引擎展示了 15.56% 的缓存命中率,目前受 CPU 限制,并计划集成 GPU 推理以获得进一步的性能提升。 AI
影响 使得在更便宜的硬件上运行大型模型成为可能,从而可能降低人工智能开发和部署的门槛。
排序理由 文章详细介绍了一个新的推理引擎 MER 及其性能基准,这是一个软件工具。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →