BeeLlama v0.3.1,一个 llama.cpp 的分支版本,已发布并带来了显著的性能提升。此次更新集成了 DFlash、多线程处理 (MTP) 以及 q6_0 缓存和 TurboQuant 等新的量化选项。在单块 RTX 3090 上的基准测试显示速度大幅提升,Qwen 3.6 27B 和 Gemma 4 31B 模型达到了 177.8 tps,比基线提高了 4.93 倍。 AI
影响 增强了本地 LLM 推理的速度和效率,使得在消费级硬件上运行更强大的模型成为可能。
排序理由 这是一个现有项目 (llama.cpp) 的软件更新/分支版本,具有性能改进和新功能,而非新模型发布或基础研究。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →