Mimo 2.5 Pro 大型语言模型已在 8x Nvidia GB10 集群上进行了基准测试,达到了令人印象深刻的吞吐速度。在单用户条件下,其 1k 上下文的吞吐量为 40 tokens/秒,在 250k 上下文下可扩展至 17 tokens/秒。通过并行处理,该模型展示了更高的性能,在四次并行请求下达到了 83 tokens/秒。 AI
影响 在专用硬件上展示了大型上下文窗口的高吞吐量,可能影响本地 LLM 部署策略。
排序理由 特定模型在定制硬件上的基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →