DeepSeek发布了其DeepSeek-V4系列混合专家(MoE)语言模型的预览版,包括DeepSeek-V4-Pro(1.6T参数)和DeepSeek-V4-Flash(284B参数)。这两个模型都支持前所未有的百万级token上下文长度,这得益于混合注意力架构和优化的残差连接方法。这些模型在超过32万亿token上进行训练,在长上下文场景中展现出显著的效率提升,与前代模型相比,DeepSeek-V4-Pro在推理时所需的FLOPs和KV缓存大大减少。 AI
影响 在长上下文推理和效率方面为开放模型树立了新的SOTA(State-of-the-Art),可能催生新类别的AI应用。
排序理由 Frontier-lab模型发布,附带系统卡。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
- Compressed Sparse Attention
- DeepSeek-V3.2
- DeepSeek-V4
- DeepSeek-V4-Flash
- DeepSeek-V4-Pro
- Heavily Compressed Attention
- Manifold-Constrained Hyper-Connections
- Mixture-of-Experts
- Muon optimizer
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →