PulseAugur
实时 14:57:05

Gemma4-26B 在速度上胜过 Qwen3.6-35B,尽管其 token 输出较慢

一位用户在 Radeon 7900 XTX GPU 上比较了 Qwen3.6-35BGemma4-26B 的性能,发现尽管 Qwen3.6-35B 的 token 发射速率明显更快,但 Gemma4-26B 在端到端任务完成方面速度快了约 20%。这种差异归因于 Qwen 为了回答提示而生成的 token 数量大约是 Gemma 的两倍,其中包括内部推理步骤。用户得出结论,Qwen 由于其解码速度更适合批量处理,而 Gemma 则更适合对延迟敏感的单个请求,并强调在涉及推理时,回答提示的总 token 数量比每秒原始 token 速度更关键。 AI

影响 Gemma4-26BQwen3.6-35B 提供了更快的端到端任务完成速度,这表明 token 生成效率对于对延迟敏感的应用至关重要。

排序理由 用户基准测试,比较特定硬件上的两个特定模型。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 Deutsch(DE) · /u/IvGranite ·

    Qwen3.6-35B vs Gemma4-26B on 7900 XTX

    <!-- SC_OFF --><div class="md"><p>Ran a fair comparison between Qwen3.6-35B-A3B and Gemma4-26B-A4B on my Radeon 7900 XTX. Both reasoning-enabled at matching 32K budgets, no output caps, six generic real-world prompts (meeting notes, incident postmortem, log triage to JSON, code r…