English(EN) Xiaomi just claimed 1,000+ tps on a 1T model using a standard 8-GPU server

小米声称在8个GPU上实现了1T参数MoE模型的1000多TPS

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 15:51

小米发布了一款名为MiMo-V2.5-Pro UltraSpeed的新大型语言模型，据称其处理速度超过每秒1000个token。据报道，这一性能是在标准8GPU服务器上使用一个1万亿参数的混合专家（MoE）模型实现的。该公司强调这一成就是一项重大进展，并将其与竞争对手的专用硬件解决方案进行了对比。 AI

影响这一声称的性能可能会显著降低运行非常大模型的成本并提高其可访问性，从而可能加速其采用。

排序理由该集群报道了一个新模型的声称性能基准测试，这是一个研究里程碑。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/No-Selection2972 · 2026-06-08 15:51

小米在标准8GPU服务器上声称1T模型实现了1000+ tps

<div class="md">Just saw Xiaomi MiMo announce MiMo-V2.5-Pro UltraSpeed, claiming they broke the 1,000 tokens/sec output barrier on a 1 trillion parameter MoE model. According to them, they’re doing it on a single standar…

报道来源 [1]

小米在标准8GPU服务器上声称1T模型实现了1000+ tps

相关实体

相关话题