一项最新分析评估了通过 Ollama 提供的八个本地大型语言模型(LLM),重点关注它们每正确答案的成本效益,以 GPU 能量消耗为测量依据。Gemma 4:26b 模型成为最高效的模型,在每 1,000 个正确答案的成本为 0.013 欧元的情况下,准确率达到 96.9%。相反,Qwen 3:8b-fp16 模型成本最高,每 1,000 个正确答案的成本为 0.239 欧元,准确率较低,为 66.7%。研究发现,更大的模型和更高的精度并不一定能带来更好的价值,而“推理”或“思考”模式虽然消耗更多能量,但并未提高确定性任务的准确率。 AI
影响 为本地 LLM 部署提供了每性能成本指标,指导用户选择高效的硬件和模型。
排序理由 对本地 LLM 性能和成本效益的分析。[lever_c_demoted from research: ic=1 ai=1.0]
- Gemma 3:1b
- Gemma 3:27b
- Gemma 4:26b
- Ollama
- Qwen 3:30b (MoE)
- Qwen 3:8b
- Qwen 3:8b-fp16
- Qwen 3:8b (Q4_K_M)
- Qwen 3:8b (Q8_0)
- RTX 3090
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →