PulseAugur
实时 00:37:33
English(EN) DiffusionGemma 26b on a 4090 at up to 475t/s... and some thoughts...

DiffusionGemma 26B 在 4090 上速度虽快,但准确性和上下文理解能力欠佳

一位 Reddit 用户分享了他们在 4090 GPU 上运行 DiffusionGemma 26B 模型的经验,速度介于每秒 290-700 个 token 之间。然而,他们发现该模型仅限单用户使用,准确性不如标准的 Gemma 模型,并且容易出现上下文遗忘。该用户总结认为,该模型不值得投入精力,因为通过 llama.cpp 运行的常规 26B 模型提供了更好的性能和准确性。 AI

影响 该模型的性能问题表明,尽管理论速度很高,但对普通用户的实用性有限。

排序理由 用户对特定模型在消费级硬件上性能的评价。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

DiffusionGemma 26B 在 4090 上速度虽快,但准确性和上下文理解能力欠佳

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/teachersecret ·

    DiffusionGemma 26b 在 4090 上以高达 475t/s 的速度运行……以及一些想法……

    <!-- SC_OFF --><div class="md"><p>Figured I'd post up a bit of info for anyone else who was thinking about messing with this model on a 3090/4090.</p> <p>Obviously I can't use the nvfp4, but I got it up and running in vLLM using diffusiongemma-26B-A4B-it-AWQ-INT4. Had to run it i…