一位 Reddit 用户分享了他们在 4090 GPU 上运行 DiffusionGemma 26B 模型的经验,速度介于每秒 290-700 个 token 之间。然而,他们发现该模型仅限单用户使用,准确性不如标准的 Gemma 模型,并且容易出现上下文遗忘。该用户总结认为,该模型不值得投入精力,因为通过 llama.cpp 运行的常规 26B 模型提供了更好的性能和准确性。 AI
影响 该模型的性能问题表明,尽管理论速度很高,但对普通用户的实用性有限。
排序理由 用户对特定模型在消费级硬件上性能的评价。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →