PulseAugur
实时 00:18:22
English(EN) I spent two weeks optimizing 96GB of VRAM for local LLMs. Paid APIs still won.

96GB 显存的本地 LLM 推理在成本上未能胜过付费 API

一位用户详细介绍了他们花费两周时间优化本地 LLM 设置(在四块 RTX 3090 GPU 上拥有 96GB 显存)的努力,目的是取代付费云 API。尽管实现了大约每秒 105 个 token 的速度,并实现了诸如增加批处理大小和 KV 缓存量化等优化,但系统的 CPU 协调瓶颈导致 GPU 利用率仅为 6%。最终,高功耗和硬件折旧使得本地设置在经济上不如付费 API 适合交互式工作,尽管它仍然适用于注重隐私或批量任务。 AI

影响 突显了与云 API 相比,运行大型本地 LLM 进行交互式任务所面临的经济挑战。

排序理由 用户生成内容,详细介绍了个人经验和技术发现。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

96GB 显存的本地 LLM 推理在成本上未能胜过付费 API

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Andre Zaiats ·

    我花了两个星期优化 96GB 的显存以运行本地 LLM。付费 API 仍然胜出。

    <p>I run a homelab with four RTX 3090s — 96 GB of VRAM, 44 CPU cores. For two weeks I tried to make it my daily driver for local LLM inference instead of paying for cloud APIs. I got it working. Then I looked at the numbers and subscribed to a paid API anyway.</p> <p>Here's the u…