Reddit 的 r/LocalLLaMA 子版块上一位用户正在寻求关于优化本地运行大型语言模型的硬件的建议。他们目前可以在单个 16GB 显存 GPU 上运行 Q4 量化的 160 亿参数模型。该用户正在询问添加第二个 16GB GPU 是否能让他们用 320 亿参数模型达到类似的性能,或者潜在的 PCIe 带宽限制是否会导致速度变慢。 AI
影响 不适用
排序理由 用户关于 LLM 硬件配置的问题。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →