PulseAugur
实时 20:27:35

DeepSeek AI 预览 DeepSeek-V4 模型,支持 100 万 token 上下文

DeepSeek AI 发布了其 DeepSeek-V4 系列的预览版,该系列包含两个专家混合(MoE)模型:DeepSeek-V4-ProDeepSeek-V4-Flash。这些模型支持令人印象深刻的一百万 token 上下文长度,并采用了混合注意力机制(CSA 和 HCA)等架构增强以提高效率。模型还利用流形约束超连接(mHC)来提高稳定性,并使用 Muon 优化器来加速训练。 AI

影响 为长上下文 LLM 设定了新的基准,可能推动在高效上下文处理方面的竞争。

排序理由 Frontier-lab 模型发布,附带系统卡。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 Hugging Face Trending Models 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

DeepSeek AI 预览 DeepSeek-V4 模型,支持 100 万 token 上下文

报道来源 [1]

  1. Hugging Face Trending Models TIER_1 Nederlands(NL) · deepseek-ai ·

    deepseek-ai/DeepSeek-V4-Pro-DSpark

    text-generation · 0 downloads · 70 likes