English(EN) qwen35: use post-norm hidden state for MTP by am17an · Pull Request #24025 · ggml-org/llama.cpp

llama.cpp PR 优化 Qwen35 推理速度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 17:34

向 llama.cpp 仓库提交了一个拉取请求，以优化 Qwen35 模型。拟议的更改涉及在 MTP（多轮提示）过程中使用 post-norm 隐藏状态。此修改旨在提高模型的推理速度。 AI

影响有可能加快 Qwen35 模型的本地推理速度。

排序理由这是一个开源项目的拉取请求，用于优化现有模型，属于研究/开发类别。[lever_c_demoted from research: ic=1 ai=0.7]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/jacek2023 · 2026-06-03 17:34

qwen35: use post-norm hidden state for MTP by am17an · Pull Request #24025 · ggml-org/llama.cpp

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tvwjq8/qwen35_use_postnorm_hidden_state_for_mtp_by/"> <img alt="qwen35: use post-norm hidden state for MTP by am17an · Pull Request #24025 · ggml-org/llama.cpp" src="https://external-preview.redd.it/HAive87NA…