PulseAugur
实时 21:00:37
English(EN) advice for dual-gpu asymmetric

用户寻求关于 llama.cpp 中双 GPU 非对称推理的优化建议

一位用户在 r/LocalLLaMA 子版块上寻求关于优化非对称双 GPU 配置性能的建议。他们拥有一块 12GB 显存的 3080 Ti 和一块 20GB 显存的 3080,当整个模型和缓存无法完全放入显存时,他们遇到了显著的速度下降。该用户正在尝试使用 llama.cpp 以及各种量化和缓存策略来最大化推理速度。 AI

影响 用户寻求优化本地 LLM 推理性能,影响个体操作员效率。

排序理由 用户在技术论坛上提出的建议请求。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/pentothal ·

    advice for dual-gpu asymmetric

    <!-- SC_OFF --><div class="md"><p>Hello everyone, i had a 3080ti 12gb and added a 3080 20gb, so it has a bit less speed but more memory than my main card.<br /> I could finally get some speed with the usual suspects (i am testing gemma 4 31b/26b-a4b and qwen 3.6 27b/35b-a3b), BUT…