Gemma4-26B 在速度上胜过 Qwen3.6-35B，尽管其 token 输出较慢

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-31 16:13

一位用户在 Radeon 7900 XTX GPU 上比较了 Qwen3.6-35B 和 Gemma4-26B 的性能，发现尽管 Qwen3.6-35B 的 token 发射速率明显更快，但 Gemma4-26B 在端到端任务完成方面速度快了约 20%。这种差异归因于 Qwen 为了回答提示而生成的 token 数量大约是 Gemma 的两倍，其中包括内部推理步骤。用户得出结论，Qwen 由于其解码速度更适合批量处理，而 Gemma 则更适合对延迟敏感的单个请求，并强调在涉及推理时，回答提示的总 token 数量比每秒原始 token 速度更关键。 AI

影响 Gemma4-26B 比 Qwen3.6-35B 提供了更快的端到端任务完成速度，这表明 token 生成效率对于对延迟敏感的应用至关重要。

排序理由用户基准测试，比较特定硬件上的两个特定模型。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Gemma4-26B 在速度上胜过 Qwen3.6-35B，尽管其 token 输出较慢

报道来源 [1]

r/LocalLLaMA TIER_1 Deutsch(DE) · /u/IvGranite · 2026-05-31 16:13

Qwen3.6-35B 对比 Gemma4-26B 在 7900 XTX 上的表现

<div class="md"><p>Ran a fair comparison between Qwen3.6-35B-A3B and Gemma4-26B-A4B on my Radeon 7900 XTX. Both reasoning-enabled at matching 32K budgets, no output caps, six generic real-world prompts (meeting notes, incident postmortem, log triage to JSON, code r…

报道来源 [1]

Qwen3.6-35B 对比 Gemma4-26B 在 7900 XTX 上的表现

相关实体

相关话题