中文(ZH) DiffusionGemma 26B 挑戰 GH200 效能極限

GH200 上的 DiffusionGemma 26B 展现极速，支持 32K 上下文

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 08:02

一次技术深度分析揭示，在 NVIDIA 的 GH200 Grace Hopper 平台和 vLLM 优化下运行的 DiffusionGemma 26B 模型，取得了卓越的性能。该配置在短上下文处理中实现了每秒 1180 个 token 的生成吞吐量，并能以可接受的延迟处理长达 32,000 个 token，显著优于之前在 M2 Max 硬件上的测试结果。尽管该模型在 GH200 的 HBM3 上的内存占用很大，为 KV 缓存留下的空间有限，但该平台的整体架构和 vLLM 的批处理能力实现了令人印象深刻的并发吞吐量，远超 M2 Max。 AI

影响展示了大型上下文模型在硬件加速方面的巨大潜力，影响未来的部署策略。

排序理由技术深度分析，比较了模型在不同硬件平台上的性能。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

GH200 上的 DiffusionGemma 26B 展现极速，支持 32K 上下文

报道来源 [1]

dev.to — LLM tag TIER_1 中文(ZH) · JH5 · 2026-06-19 08:02

DiffusionGemma 26B Challenges GH200 Performance Limits

<p>1180 tok/s 的地表極速是什麼概念？在 256 tokens 的輸出下，運算只要 0.22 秒就瞬間結束，這表示 DiffusionGemma 26B 在 NVIDIA GH200 上跑 vLLM 的速度，整整比 M2 Max 快了 80 倍！</p> <p>延續系列第一篇在 <a href="https://dev.to/jh5_pulse/diffusiongemma-26b-deng-lu-m2-maxmlx-tun-tu-liang-shi-ce-yu-context-ji-xian-tiao-zhan-4le8">M2 Max 9…

报道来源 [1]

DiffusionGemma 26B Challenges GH200 Performance Limits

相关实体

相关话题