English(EN) advice for dual-gpu asymmetric

用户寻求关于 llama.cpp 中双 GPU 非对称推理的优化建议

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 17:13

一位用户在 r/LocalLLaMA 子版块上寻求关于优化非对称双 GPU 配置性能的建议。他们拥有一块 12GB 显存的 3080 Ti 和一块 20GB 显存的 3080，当整个模型和缓存无法完全放入显存时，他们遇到了显著的速度下降。该用户正在尝试使用 llama.cpp 以及各种量化和缓存策略来最大化推理速度。 AI

影响用户寻求优化本地 LLM 推理性能，影响个体操作员效率。

排序理由用户在技术论坛上提出的建议请求。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/pentothal · 2026-06-11 17:13

advice for dual-gpu asymmetric

<div class="md"><p>Hello everyone, i had a 3080ti 12gb and added a 3080 20gb, so it has a bit less speed but more memory than my main card.<br /> I could finally get some speed with the usual suspects (i am testing gemma 4 31b/26b-a4b and qwen 3.6 27b/35b-a3b), BUT…

报道来源 [1]

advice for dual-gpu asymmetric

相关实体

相关话题