用户询问本地 LLM 的双 GPU 性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 20:02

Reddit 的 r/LocalLLaMA 子版块上一位用户正在寻求关于优化本地运行大型语言模型的硬件的建议。他们目前可以在单个 16GB 显存 GPU 上运行 Q4 量化的 160 亿参数模型。该用户正在询问添加第二个 16GB GPU 是否能让他们用 320 亿参数模型达到类似的性能，或者潜在的 PCIe 带宽限制是否会导致速度变慢。 AI

影响不适用

排序理由用户关于 LLM 硬件配置的问题。

在 r/LocalLLaMA 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 Nederlands(NL) · /u/TrainingTwo1118 · 2026-06-08 20:02

16B dense on 16GB GPU vs 32B dense on 2x 16GB GPU

<div class="md">I'm currently trying to plan a build to run big(-ish) LLMs locally, and was wondering the following: I'm able to run a 16B dense model at Q4 with reasonable context size on a single 16GB VRAM GPU (9070 XT). If I were to add a second…

报道来源 [1]

16B dense on 16GB GPU vs 32B dense on 2x 16GB GPU

相关实体

相关话题