llama.cpp 项目已提交一个拉取请求,将多列 MMVQ(矩阵-矩阵向量量化)从 CUDA 后端移植到 SYCL。此次移植旨在提高 Intel Arc 显卡用户的性能,初步报告显示推测解码速度提升约 45%。建议拥有兼容 Intel 硬件的用户更新其 llama.cpp 版本以受益于此优化。 AI
影响 增强了 Intel 硬件上的本地 LLM 推理性能,使其更易于访问。
排序理由 这是对一个开源项目的代码贡献,它提高了特定用户群体的硬件兼容性和性能。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →