PulseAugur
实时 16:52:49
English(EN) Strix Halo users, a rejected PR can give you up to 30% faster PP for MOEs.

被拒绝的 llama.cpp PR 提升了 Strix Halo 上 MoE 模型的速度

一个被拒绝合并到主项目的 llama.cpp 的 pull request,为 Strix Halo 硬件上的专家混合 (MoE) 模型提供了性能提升。这个由 pedapudi 开发的修改,可以提高处理速度高达 30%,尤其是在较短的上下文长度下。用户可以通过手动应用这些小的代码更改到本地的 llama.cpp 构建中来实现这些提升。 AI

影响 对特定软件库的代码调整的手动应用,可以为特定硬件上的特定模型架构带来显著的性能提升。

排序理由 一个针对特定软件库的代码更改,提供了性能改进,但未被集成到主项目中。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/fallingdowndizzyvr ·

    Strix Halo users, a rejected PR can give you up to 30% faster PP for MOEs.

    <!-- SC_OFF --><div class="md"><p>Here's the PR by pedapudi.</p> <p><a href="https://github.com/ggml-org/llama.cpp/pull/21344">https://github.com/ggml-org/llama.cpp/pull/21344</a></p> <p>It's merge request has been denied so it will not be in mainline llama.cpp. The changes are s…