English(EN) DiffusionGemma 26b on a 4090 at up to 475t/s... and some thoughts...

DiffusionGemma 26B 在 4090 上速度虽快，但准确性和上下文理解能力欠佳

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 22:29

一位 Reddit 用户分享了他们在 4090 GPU 上运行 DiffusionGemma 26B 模型的经验，速度介于每秒 290-700 个 token 之间。然而，他们发现该模型仅限单用户使用，准确性不如标准的 Gemma 模型，并且容易出现上下文遗忘。该用户总结认为，该模型不值得投入精力，因为通过 llama.cpp 运行的常规 26B 模型提供了更好的性能和准确性。 AI

影响该模型的性能问题表明，尽管理论速度很高，但对普通用户的实用性有限。

排序理由用户对特定模型在消费级硬件上性能的评价。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

DiffusionGemma 26B 在 4090 上速度虽快，但准确性和上下文理解能力欠佳

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/teachersecret · 2026-06-18 22:29

DiffusionGemma 26b 在 4090 上以高达 475t/s 的速度运行……以及一些想法……

<div class="md"><p>Figured I'd post up a bit of info for anyone else who was thinking about messing with this model on a 3090/4090.</p> <p>Obviously I can't use the nvfp4, but I got it up and running in vLLM using diffusiongemma-26B-A4B-it-AWQ-INT4. Had to run it i…

报道来源 [1]

DiffusionGemma 26b 在 4090 上以高达 475t/s 的速度运行……以及一些想法……

相关实体

相关话题