一位用户报告称,gemma4:26b-a4b-it-qat 模型在配备 8GB 显存和 16GB 内存的 Nvidia 4070 GPU 上达到了每秒 15 个 token 的速度。该性能在 Windows 11 上运行,被认为几乎与 12B 模型一样快,其效率令用户感到惊讶。 AI
影响 展示了小型模型在消费级硬件上的高效性能,可能降低了人工智能实验的门槛。
排序理由 用户关于模型在消费级硬件上性能的报告。
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →