PulseAugur
实时 13:28:53
English(EN) DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

DeepSeek发布V4模型,支持1M上下文和MoE架构

DeepSeek发布了其DeepSeek-V4系列混合专家(MoE)语言模型的预览版,包括DeepSeek-V4-Pro(1.6T参数)和DeepSeek-V4-Flash(284B参数)。这两个模型都支持前所未有的百万级token上下文长度,这得益于混合注意力架构和优化的残差连接方法。这些模型在超过32万亿token上进行训练,在长上下文场景中展现出显著的效率提升,与前代模型相比,DeepSeek-V4-Pro在推理时所需的FLOPs和KV缓存大大减少。 AI

影响 在长上下文推理和效率方面为开放模型树立了新的SOTA(State-of-the-Art),可能催生新类别的AI应用。

排序理由 Frontier-lab模型发布,附带系统卡。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

DeepSeek发布V4模型,支持1M上下文和MoE架构

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · DeepSeek-AI, Anyi Xu, Bangcai Lin, Bing Xue, Bingxuan Wang, Bingzheng Xu, Bochao Wu, Bowei Zhang, Chaofan Lin, Chen Dong, Chenchen Ling, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chengyu Hou, Chenhao Xu, Chenze Shao, Chong Ruan, Conner Sun, Damai Dai, Da… ·

    DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

    arXiv:2606.19348v1 Announce Type: cross Abstract: We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models -- DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) -…