TimNN 向 llama.cpp 项目提交了一个标题为“Top-N-Sigma: Remove unconditional softmax+sort”的拉取请求。此更改旨在通过移除当 Top-N-Sigma sampler 后跟“Dist”sampler 时不必要的最终排序步骤来优化 Top-N-Sigma sampler。在 M3 Max MacBook Pro 上的早期测试显示,对于 google_gemma-4-E4B-it-Q8_0 模型,性能显著提高了约 50%,吞吐量从每秒 30 个 token 提高到每秒 45 个 token。 AI
影响 此优化可能导致使用 llama.cpp 的本地 LLM 部署获得更快的推理速度。
排序理由 这是针对开源项目中特定优化的拉取请求,而非重大发布或研究突破。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →