Gemma 4 QAT MTP Heads 发布，崩溃修复支持并行处理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-06 21:41

Gemma 4 QAT MTP assistant heads 已在 HuggingFace 上发布，为投机解码提供了改进的性能。这些 heads 经过专门训练，以匹配 Gemma 4 模型的量化权重，与非 QAT 匹配的 heads 相比，显著提高了接受率。此外，llama.cpp 实现中使用两个并行处理线程时的一个关键崩溃错误已被识别并修复，提高了本地 LLM 推理的稳定性。 AI

影响通过提供优化的组件和修复关键错误，实现了 Gemma 4 模型更高效的本地推理。

排序理由模型组件的发布和本地 LLM 推理软件的错误修复。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/westsunset · 2026-06-06 21:41

QAT MTP 头部上传 + PARALLEL=2 修复 + 12B 2-槽位基准

<div class="md"><hr /> Title: Gemma 4 QAT MTP assistant heads now public on HuggingFace + PARALLEL=2 crash fix + 12B 2-slot bench (Strix Halo / Vulkan) <hr /> Three things in one update: the converted QAT-matched draft heads are now uploa…

报道来源 [1]

QAT MTP 头部上传 + PARALLEL=2 修复 + 12B 2-槽位基准

相关实体

相关话题