llama.cpp 项目的一个拉取请求引入了快速 Walsh-Hadamard 变换 (FWHT) 的 CUDA 实现。此优化由用户 am17an 开发,旨在加快键值缓存量化时的操作速度。初步基准测试显示性能有所提升,对于 Gemma 4 26B 模型,处理能力 (pp) 提升了 1-2%,令牌生成 (tg) 增加了 7-9%。 AI
影响 通过优化 KV 缓存操作,提高了本地 LLM 部署的推理效率。
排序理由 这是开源项目中特定优化的一个拉取请求,而不是重大的模型发布或行业塑造事件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →