English(EN) Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp

llama.cpp Pull Request 优化 Top-N-Sigma Sampler 性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 17:18

TimNN 向 llama.cpp 项目提交了一个标题为“Top-N-Sigma: Remove unconditional softmax+sort”的拉取请求。此更改旨在通过移除当 Top-N-Sigma sampler 后跟“Dist”sampler 时不必要的最终排序步骤来优化 Top-N-Sigma sampler。在 M3 Max MacBook Pro 上的早期测试显示，对于 google_gemma-4-E4B-it-Q8_0 模型，性能显著提高了约 50%，吞吐量从每秒 30 个 token 提高到每秒 45 个 token。 AI

影响此优化可能导致使用 llama.cpp 的本地 LLM 部署获得更快的推理速度。

排序理由这是针对开源项目中特定优化的拉取请求，而非重大发布或研究突破。

在 r/LocalLLaMA 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

llama.cpp Pull Request 优化 Top-N-Sigma Sampler 性能

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/pmttyji · 2026-06-22 17:18

Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1ucqs1k/topnsigma_remove_unconditional_softmaxsort_by/"> <img alt="Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp" src="https://external-preview.redd.it/YS5p…

报道来源 [1]

Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp

相关实体

相关话题