English(EN) What's up on CPU inference these days?

大语言模型爱好者讨论最佳CPU推理模型和软件

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 05:01

r/LocalLLaMA 子版块的用户正在讨论大语言模型CPU推理的现状。参与者正在寻求关于在消费级硬件上运行这些模型的最佳模型、量化方法以及特定软件版本（如 llama.cpp）的建议。一位用户分享了他在拥有 64GB RAM 和 AVX2 支持的系统上使用 Qwen3.6 35B 的经验，速度约为每秒 10 个 token，并询问是否能获得更好的性能。 AI

影响用户寻求优化本地硬件上的大语言模型性能，这表明了去中心化AI部署的趋势。

排序理由用户在子版块上讨论在消费级硬件上优化大语言模型性能。

在 r/LocalLLaMA 阅读 →

其他

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/ramendik · 2026-06-10 05:01

近期CPU推理方面有什么新进展？

<div class="md">What are the best models, quants and llama.cpp versions/forks for CPU inference these days? I have AVX2 but no AVX512 - Intel core ultra 7 165H; 64G RAM This seems to ask for massive MoE (a lot of RAM, not a lot of bandwidth/compute…

报道来源 [1]

近期CPU推理方面有什么新进展？

相关实体

相关话题