PulseAugur
实时 05:20:49
English(EN) How to Rank Local LLMs by Cost per Correct Answer (Measured GPU Energy, 8 Ollama Models)

Gemma 4:26b 在每正确答案的成本效益方面领先本地 LLM

一项最新分析评估了通过 Ollama 提供的八个本地大型语言模型(LLM),重点关注它们每正确答案的成本效益,以 GPU 能量消耗为测量依据。Gemma 4:26b 模型成为最高效的模型,在每 1,000 个正确答案的成本为 0.013 欧元的情况下,准确率达到 96.9%。相反,Qwen 3:8b-fp16 模型成本最高,每 1,000 个正确答案的成本为 0.239 欧元,准确率较低,为 66.7%。研究发现,更大的模型和更高的精度并不一定能带来更好的价值,而“推理”或“思考”模式虽然消耗更多能量,但并未提高确定性任务的准确率。 AI

影响 为本地 LLM 部署提供了每性能成本指标,指导用户选择高效的硬件和模型。

排序理由 对本地 LLM 性能和成本效益的分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Gemma 4:26b 在每正确答案的成本效益方面领先本地 LLM

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Arsen Apostolov ·

    如何按每次正确回答的成本对本地LLM进行排名(以GPU能耗衡量,8个Ollama模型)

    <p><strong>TL;DR:</strong> I priced 8 local Ollama models by <strong>€ per 1,000 correct answers</strong> — metered GPU energy ÷ correct answers, on one RTX 3090. <code>gemma4:26b</code> won at <strong>96.9% accuracy for €0.013/1k-correct</strong>. The most expensive model (<code…