English(EN) How to Rank Local LLMs by Cost per Correct Answer (Measured GPU Energy, 8 Ollama Models)

Gemma 4:26b 在每正确答案的成本效益方面领先本地 LLM

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-23 18:11

一项最新分析评估了通过 Ollama 提供的八个本地大型语言模型（LLM），重点关注它们每正确答案的成本效益，以 GPU 能量消耗为测量依据。Gemma 4:26b 模型成为最高效的模型，在每 1,000 个正确答案的成本为 0.013 欧元的情况下，准确率达到 96.9%。相反，Qwen 3:8b-fp16 模型成本最高，每 1,000 个正确答案的成本为 0.239 欧元，准确率较低，为 66.7%。研究发现，更大的模型和更高的精度并不一定能带来更好的价值，而“推理”或“思考”模式虽然消耗更多能量，但并未提高确定性任务的准确率。 AI

影响为本地 LLM 部署提供了每性能成本指标，指导用户选择高效的硬件和模型。

排序理由对本地 LLM 性能和成本效益的分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Arsen Apostolov · 2026-06-23 18:11

如何按每次正确回答的成本对本地LLM进行排名（以GPU能耗衡量，8个Ollama模型）

TL;DR: I priced 8 local Ollama models by € per 1,000 correct answers — metered GPU energy ÷ correct answers, on one RTX 3090. <code>gemma4:26b</code> won at 96.9% accuracy for €0.013/1k-correct. The most expensive model (<code…

报道来源 [1]

如何按每次正确回答的成本对本地LLM进行排名（以GPU能耗衡量，8个Ollama模型）

相关实体

相关话题