PulseAugur
实时 20:34:03
English(EN) Here are some tips on hitting nearly 200 tok/s for DeepSeek v4 Flash on Hopper

用户优化 DeepSeek v4 Flash 在 Hopper 上的速度至 200 tok/s

一位用户分享了在本地运行 DeepSeek v4 Flash 模型进行优化的技巧,在 Hopper 系统上实现了近 200 token/秒的速度。通过利用 Canada-Quant 的特定量化以及修补 vLLM 中的 MTP 代码,用户显著提高了推理速度。该帖子还详细说明了成本影响,指出目前 token 生成的电力成本已超过收入。 AI

影响 为优化本地 LLM 推理速度提供了实用见解,可能降低用户的运营成本。

排序理由 用户分享的针对特定模型和硬件设置的优化技巧。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Reddactor ·

    关于在 Hopper 上将 DeepSeek v4 Flash 的速度提升至近 200 tok/s 的一些技巧

    <!-- SC_OFF --><div class="md"><p>I needed a smarter model for my local Hermes Agent setup, so I moved to DeepSeek v4 Flash.</p> <p>First things first:</p> <ul> <li>Running 4 concurrent threads on vLLM, I can hit ~400 tok/s</li> <li>400 x 60 x 60 x 24 x 30 is <strong>~1B TOKENS p…