English(EN) Here are some tips on hitting nearly 200 tok/s for DeepSeek v4 Flash on Hopper

用户优化 DeepSeek v4 Flash 在 Hopper 上的速度至 200 tok/s

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 16:40

一位用户分享了在本地运行 DeepSeek v4 Flash 模型进行优化的技巧，在 Hopper 系统上实现了近 200 token/秒的速度。通过利用 Canada-Quant 的特定量化以及修补 vLLM 中的 MTP 代码，用户显著提高了推理速度。该帖子还详细说明了成本影响，指出目前 token 生成的电力成本已超过收入。 AI

影响为优化本地 LLM 推理速度提供了实用见解，可能降低用户的运营成本。

排序理由用户分享的针对特定模型和硬件设置的优化技巧。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Reddactor · 2026-06-08 16:40

关于在 Hopper 上将 DeepSeek v4 Flash 的速度提升至近 200 tok/s 的一些技巧

<div class="md">I needed a smarter model for my local Hermes Agent setup, so I moved to DeepSeek v4 Flash. First things first: <ul> <li>Running 4 concurrent threads on vLLM, I can hit ~400 tok/s</li> <li>400 x 60 x 60 x 24 x 30 is ~1B TOKENS p…

报道来源 [1]

关于在 Hopper 上将 DeepSeek v4 Flash 的速度提升至近 200 tok/s 的一些技巧

相关实体

相关话题