在一台配备 RTX 3090 GPU 的单机上进行的受控基准测试,测量了运行本地大型语言模型(LLM)的实际成本,以每百万 token 欧元计。结果显示,像 Gemma 3:1B 这样的小型模型比托管 API 便宜得多,每百万 token 成本约为 0.118 欧元。然而,像 Gemma 3:27B 这样的大型模型由于能耗高和吞吐量低,本地运行成本更高,每百万 token 成本为 0.706 欧元,这还不包括硬件折旧。 AI
影响 强调了本地运行 LLM 的成本效益高度依赖于模型大小和硬件效率,挑战了本地部署总是更便宜的假设。
排序理由 该项目详细说明了 LLM 运营成本的具体、可复现的基准测试和分析,类似于研究发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →