一份性能报告详细介绍了 Gemma-4-31B 模型在 Cloud TPU v6e-4 硬件上的能力,峰值预填充吞吐量达到 463,345 tokens/sec。基准测试表明,在相同硬件上,这个 31B 的密集模型提供的吞吐量与一个 26B 的 MoE 模型相当,并且在交互式任务中具有更低的延迟。然而,MoE 模型展示了更优越的计算效率,并且可以处理更大的上下文窗口。 AI
影响 展示了针对密集模型的软硬件协同优化,为理解其与 MoE 架构的性能权衡提供了见解。
排序理由 这是一份关于特定模型在特定硬件上性能表现和基准测试的分析报告,并非新的模型发布或重大的行业事件。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →