DeepSeek AI 发布了其 DeepSeek-V4 系列的预览版,该系列包含两个专家混合(MoE)模型:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。这些模型支持令人印象深刻的一百万 token 上下文长度,并采用了混合注意力机制(CSA 和 HCA)等架构增强以提高效率。模型还利用流形约束超连接(mHC)来提高稳定性,并使用 Muon 优化器来加速训练。 AI
影响 为长上下文 LLM 设定了新的基准,可能推动在高效上下文处理方面的竞争。
排序理由 Frontier-lab 模型发布,附带系统卡。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
在 Hugging Face Trending Models 阅读 →
- DeepSeek AI
- deepseek-ai/DeepSeek-V4-Pro-DSpark
- DeepSeek-V3.2
- DeepSeek V4
- DeepSeek-V4-Flash
- DeepSeek-V4-Pro
- Docker Model Runner
- Google Colab
- Kaggle
- SGLang
- transformers
- vLLM
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →