PulseAugur
实时 22:45:03
English(EN) Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp

llama.cpp Pull Request 优化 Top-N-Sigma Sampler 性能

TimNNllama.cpp 项目提交了一个标题为“Top-N-Sigma: Remove unconditional softmax+sort”的拉取请求。此更改旨在通过移除当 Top-N-Sigma sampler 后跟“Dist”sampler 时不必要的最终排序步骤来优化 Top-N-Sigma sampler。在 M3 Max MacBook Pro 上的早期测试显示,对于 google_gemma-4-E4B-it-Q8_0 模型,性能显著提高了约 50%,吞吐量从每秒 30 个 token 提高到每秒 45 个 token。 AI

影响 此优化可能导致使用 llama.cpp 的本地 LLM 部署获得更快的推理速度。

排序理由 这是针对开源项目中特定优化的拉取请求,而非重大发布或研究突破。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

llama.cpp Pull Request 优化 Top-N-Sigma Sampler 性能

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/pmttyji ·

    Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1ucqs1k/topnsigma_remove_unconditional_softmaxsort_by/"> <img alt="Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp" src="https://external-preview.redd.it/YS5p…