一位用户分享了在双DGX Sparks硬件上运行DeepSeek V4-Flash模型的配置和基准测试。该设置在FP8精度下实现了约每秒40万亿token(tera-tokens per second)的吞吐量,并在处理具有256k上下文窗口的多个请求时,聚合吞吐量可达每秒350万亿token。此性能与Nvidia RTX Pro 6000和Mac M2 Ultra系统进行了比较,突显了双DGX设置在大模型推理方面的效率。 AI
影响 展示了在可访问硬件上运行大型模型的高吞吐量推理能力,可能降低高级AI应用的门槛。
排序理由 用户生成的基准测试和配置,用于在消费级/专业级硬件上运行特定LLM。[lever_c_demoted from research: ic=1 ai=0.7]
- DeepSeek V4-Flash
- DGX Sparks
- Mac M2 Ultra
- MOD St Athan
- Nvidia RTX Pro 6000 Blackwell Workstation Edition
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →