English(EN) CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp

llama.cpp 添加 CUDA FWHT 以加速 KV 缓存量化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 17:22

llama.cpp 项目的一个拉取请求引入了快速 Walsh-Hadamard 变换 (FWHT) 的 CUDA 实现。此优化由用户 am17an 开发，旨在加快键值缓存量化时的操作速度。初步基准测试显示性能有所提升，对于 Gemma 4 26B 模型，处理能力 (pp) 提升了 1-2%，令牌生成 (tg) 增加了 7-9%。 AI

影响通过优化 KV 缓存操作，提高了本地 LLM 部署的推理效率。

排序理由这是开源项目中特定优化的一个拉取请求，而不是重大的模型发布或行业塑造事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/pmttyji · 2026-05-25 17:22

CUDA: 添加快速Walsh-Hadamard变换，作者 am17an · Pull Request #23615 · ggml-org/llama.cpp

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tnfqng/cuda_add_fast_walshhadamard_transform_by_am17an/"> <img alt="CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp" src="https://external-preview.redd.it/LjVbMyds…

报道来源 [1]

CUDA: 添加快速Walsh-Hadamard变换，作者 am17an · Pull Request #23615 · ggml-org/llama.cpp

相关实体

相关话题