English(EN) I streamed Mixtral 8x7B from NVMe on a $0.40/hour VM and got 3.32 tps, here's how

Rust 引擎在廉价虚拟机上流式传输 Mixtral 8x7B

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 05:50

一款名为 MER 的新 Rust 推理引擎能够从 NVMe 存储高效地流式传输大型语言模型（如 Mixtral 8x7B）到性能较低且更便宜的虚拟机上。这种方法通过按需加载模型专家、将常用模型缓存到 RAM 中，避免了对高端 GPU 的需求，并在每小时 0.40 美元的虚拟机上实现了 3.32 tps 的速度。该引擎展示了 15.56% 的缓存命中率，目前受 CPU 限制，并计划集成 GPU 推理以获得进一步的性能提升。 AI

影响使得在更便宜的硬件上运行大型模型成为可能，从而可能降低人工智能开发和部署的门槛。

排序理由文章详细介绍了一个新的推理引擎 MER 及其性能基准，这是一个软件工具。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Randy AP · 2026-06-01 05:50

我从 NVMe 在每小时 0.40 美元的虚拟机上流式传输 Mixtral 8x7B，获得了 3.32 tps，方法如下

<h1> I streamed Mixtral 8x7B from NVMe on a $0.40/hour VM and got 3.32 tps — here's how </h1> <p>Most people assume running Mixtral 8x7B requires an A100 with 80GB of VRAM. That's $2-3/hour minimum and most teams don't have access to it. I spent the last several months building M…

报道来源 [1]

我从 NVMe 在每小时 0.40 美元的虚拟机上流式传输 Mixtral 8x7B，获得了 3.32 tps，方法如下

相关实体

相关话题