在 r/LocalLLaMA 子论坛上,用户正在讨论如何在 q4_0 GGUF 格式的新 QAT Gemma4 31b 模型中激活 MTP(可能是量化或推理技术)。主要问题是 llama.cpp 是否支持此功能,或者它是否通过 vLLM 工作。 AI
影响 技术用户正在探索开源模型的优化技术,这可能会提高本地推理性能。
排序理由 用户讨论为开源模型发布启用特定功能。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →