PulseAugur
实时 01:14:26
English(EN) I streamed Mixtral 8x7B from NVMe on a $0.40/hour VM and got 3.32 tps, here's how

Rust 引擎在廉价虚拟机上流式传输 Mixtral 8x7B

一款名为 MER 的新 Rust 推理引擎能够从 NVMe 存储高效地流式传输大型语言模型(如 Mixtral 8x7B)到性能较低且更便宜的虚拟机上。这种方法通过按需加载模型专家、将常用模型缓存到 RAM 中,避免了对高端 GPU 的需求,并在每小时 0.40 美元的虚拟机上实现了 3.32 tps 的速度。该引擎展示了 15.56% 的缓存命中率,目前受 CPU 限制,并计划集成 GPU 推理以获得进一步的性能提升。 AI

影响 使得在更便宜的硬件上运行大型模型成为可能,从而可能降低人工智能开发和部署的门槛。

排序理由 文章详细介绍了一个新的推理引擎 MER 及其性能基准,这是一个软件工具。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Randy AP ·

    我从 NVMe 在每小时 0.40 美元的虚拟机上流式传输 Mixtral 8x7B,获得了 3.32 tps,方法如下

    <h1> I streamed Mixtral 8x7B from NVMe on a $0.40/hour VM and got 3.32 tps — here's how </h1> <p>Most people assume running Mixtral 8x7B requires an A100 with 80GB of VRAM. That's $2-3/hour minimum and most teams don't have access to it. I spent the last several months building M…