Mimo 2.5 Pro 在 Nvidia GB10 集群上达到 83 t/s

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 20:18

Mimo 2.5 Pro 大型语言模型已在 8x Nvidia GB10 集群上进行了基准测试，达到了令人印象深刻的吞吐速度。在单用户条件下，其 1k 上下文的吞吐量为 40 tokens/秒，在 250k 上下文下可扩展至 17 tokens/秒。通过并行处理，该模型展示了更高的性能，在四次并行请求下达到了 83 tokens/秒。 AI

影响在专用硬件上展示了大型上下文窗口的高吞吐量，可能影响本地 LLM 部署策略。

排序理由特定模型在定制硬件上的基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/ciprianveg · 2026-05-28 20:18

Mimo 2.5 Pro - 40t/s 在 8x Nvidia Spark/GB10 集群上

<div class="md">I got Mimo 2.5 Pro running on my 8x Asus Nvidia GB10 cluster using mtp-2, single user request, coding: 40 t/s - 1k context, 32t/s - 30k context, 25t/s - 125k context, 17t/s - 250k context. 2 parallel reached 60t/s a…

报道来源 [1]

Mimo 2.5 Pro - 40t/s 在 8x Nvidia Spark/GB10 集群上

相关实体

相关话题