Gemma 4 QAT MTP assistant heads 已在 HuggingFace 上发布,为投机解码提供了改进的性能。这些 heads 经过专门训练,以匹配 Gemma 4 模型的量化权重,与非 QAT 匹配的 heads 相比,显著提高了接受率。此外,llama.cpp 实现中使用两个并行处理线程时的一个关键崩溃错误已被识别并修复,提高了本地 LLM 推理的稳定性。 AI
影响 通过提供优化的组件和修复关键错误,实现了 Gemma 4 模型更高效的本地推理。
排序理由 模型组件的发布和本地 LLM 推理软件的错误修复。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →