PulseAugur
实时 06:10:50
English(EN) PSA: You may not need to quantize spec draft when using MTP

用户发现量化 spec draft 可能会减小 MTP 上下文大小

r/LocalLLaMA subreddit 上的一位用户发现,在使用 MTP(可能是某个模型推理框架)时量化 spec draft 会意外地减小上下文大小。该用户发现禁用此量化操作后,其上下文窗口从 83,200 个 token 增加到 91,648 个 token。这一发现得到了 llama.cpp 讨论中一位名为 'am17an' 的开发者的证实。 AI

影响 发现 MTP 推理框架的优化方法,可能提高上下文窗口性能。

排序理由 用户发现的关于优化特定软件工具的技术细节。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/regunakyle ·

    PSA:使用 MTP 时,您可能无需量化 spec 草案

    <!-- SC_OFF --><div class="md"><p>Using `--spec-draft-type-k q4_0 --spec-draft-type-v q4_0` might actually decrease your context size!</p> <p>With quantized spec draft, my context size is 83200. Without it (i.e. using the default of fp16 spec draft), context size increased to 916…