English(EN) I spent two weeks optimizing 96GB of VRAM for local LLMs. Paid APIs still won.

96GB 显存的本地 LLM 推理在成本上未能胜过付费 API

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-20 21:24

一位用户详细介绍了他们花费两周时间优化本地 LLM 设置（在四块 RTX 3090 GPU 上拥有 96GB 显存）的努力，目的是取代付费云 API。尽管实现了大约每秒 105 个 token 的速度，并实现了诸如增加批处理大小和 KV 缓存量化等优化，但系统的 CPU 协调瓶颈导致 GPU 利用率仅为 6%。最终，高功耗和硬件折旧使得本地设置在经济上不如付费 API 适合交互式工作，尽管它仍然适用于注重隐私或批量任务。 AI

影响突显了与云 API 相比，运行大型本地 LLM 进行交互式任务所面临的经济挑战。

排序理由用户生成内容，详细介绍了个人经验和技术发现。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Andre Zaiats · 2026-06-20 21:24

我花了两个星期优化 96GB 的显存以运行本地 LLM。付费 API 仍然胜出。

<p>I run a homelab with four RTX 3090s — 96 GB of VRAM, 44 CPU cores. For two weeks I tried to make it my daily driver for local LLM inference instead of paying for cloud APIs. I got it working. Then I looked at the numbers and subscribed to a paid API anyway.</p> <p>Here's the u…

报道来源 [1]

我花了两个星期优化 96GB 的显存以运行本地 LLM。付费 API 仍然胜出。

相关实体

相关话题