一位用户详细介绍了他们花费两周时间优化本地 LLM 设置(在四块 RTX 3090 GPU 上拥有 96GB 显存)的努力,目的是取代付费云 API。尽管实现了大约每秒 105 个 token 的速度,并实现了诸如增加批处理大小和 KV 缓存量化等优化,但系统的 CPU 协调瓶颈导致 GPU 利用率仅为 6%。最终,高功耗和硬件折旧使得本地设置在经济上不如付费 API 适合交互式工作,尽管它仍然适用于注重隐私或批量任务。 AI
影响 突显了与云 API 相比,运行大型本地 LLM 进行交互式任务所面临的经济挑战。
排序理由 用户生成内容,详细介绍了个人经验和技术发现。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →