一位用户已成功在 DGX Spark 系统上配置了 Deepseek V4 Flash,在 KV 缓存中实现了 100 万个 token 的最大上下文窗口。性能测试显示,在各种上下文长度下吞吐量保持一致,但在 32k token 时出现了一个显著的异常。用户报告称,Deepseek V4 Flash 在高上下文推理方面优于 M2.7 和 Stepfun 3.7 等其他模型,但缺乏密集模型的世界知识。 AI
影响 展示了在专用硬件上运行大型模型的高上下文能力和性能调优。
排序理由 用户报告的特定模型和硬件配置的性能基准和配置详细信息。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →