实体 DeepSeek V2

DeepSeek V2

PulseAugur coverage of DeepSeek V2 — every cluster mentioning DeepSeek V2 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 8

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

significant 1
research 3
tool 3
commentary 1

主题

模型发布 6
论文 5
基础设施 2
产品 2
政策 1
观点 1

关系

developed by DeepSeek 100%
subsidiary of DeepSeek 100%

时间线

2026-05-29 product_launch DeepSeek launched its DeepSeek-V2 model with aggressive pricing, significantly lowering the cost of AI processing. 来源
2026-05-22 research_milestone DeepSeek-V2 AI model released, showing strong performance on benchmarks. 来源

最近 · 第 1/1 页 · 共 8 条

SIGNIFICANT · CL_59499 · May 29 · 11:31

DeepSeek V2发布大幅削减AI成本，挑战西方主导地位

总部位于北京的人工智能公司DeepSeek发布了其DeepSeek-V2模型，价格大幅降低，引发市场震动。此举旨在普及先进的人工智能能力，特别是为中国开发者提供支持，并挑战西方人工智能巨头的昂贵模式。其可负担性被视为中国技术自给自足战略的关键组成部分，与华为Ascend芯片等国内硬件发展相结合，以创建完整的AI生态系统。
TOOL · CL_57927 · May 28 · 21:25

开源大模型演进：注意力机制、多模态和效率提升

近几个月来，开源大模型领域发生了重大变化，滑动窗口注意力机制已成为主流，支持更大的上下文窗口。QK-Norm 也因其作为训练稳定器的作用而受到关注，其根源可追溯至 Gemini 3 的架构。Kimi k2.5 中早期出现的多模态预训练，已被证明有利于推理，而 Z.ai 的 GLM-5，尽管经过修改，但性能可与顶级闭源模型相媲美。Step 3.5 Flash 在推理速度和多令牌预测方面表现突出，尽管基准测试性能并不总是与用户偏好一致。
RESEARCH · CL_45905 · May 23 · 13:14

新的MLA注意力机制将LLM KV缓存削减高达10倍

多头潜在注意力（MLA）是一种新颖的注意力机制，旨在显著压缩大型语言模型的KV缓存。通过将KV对投影到低维潜在空间，MLA实现了大量的缓存缩减，使DeepSeek-V2/V3和Kimi K2.x等模型能够以更少的内存处理更长的上下文和更大的批次。该技术改变了前缀缓存和注意力计算的实现方式，在模型推理过程中提供了内存使用和计算成本之间更有效的权衡。
TOOL · CL_43642 · May 22 · 07:39

OpenMythos 教程展示用于更深层计算的循环 Transformer

OpenMythos 框架能够构建先进的循环深度 Transformer 模型，并通过使用 Google Colab 的教程进行了演示。该教程展示了如何构建和比较多潜在注意力（MLA）和分组查询注意力（GQA）模型变体，并分析它们的参数数量和循环注入矩阵的稳定性。该过程涉及设置一个合成组合推理任务，模型在该任务中学习预测固定值的模数和，说明了循环如何通过参数重用来促进更深层的计算。
SIGNIFICANT · CL_43590 · May 22 · 00:47

DeepSeek-V2 AI 以卓越的基准性能挑战 GPT-4

DeepSeek 发布了一款新 AI 模型，据称在多项基准测试中表现优于 GPT-4 等领先模型。该模型名为 DeepSeek-V2，在推理和编码能力方面展现出显著的进步。此次发布使 DeepSeek 成为前沿 AI 模型领域的主要竞争者。
COMMENTARY · CL_37543 · May 18 · 19:32

AI代理应将模型用于高价值决策，而非频繁任务

一种构建AI代理的新视角建议，将重点放在大型语言模型的战略性部署上，而不是频繁使用它们。核心论点是，代理在生产环境中经常失败，原因是将模型置于重复的“foreach”循环中会导致高成本和高延迟。相反，模型应保留用于“高价值if”场景，这些场景的决策涉及高度不确定性、复杂语义或重大利益。目标是将模型的判断固化为持久的系统资产，如模式和工作流，从而随着时间的推移减少不必要的模型调用。
RESEARCH · CL_06849 · Apr 28 · 04:00

FlashNorm 加速 Transformer 推理，优化归一化层

研究人员开发了 FlashNorm 技术，用于加速 Transformer 模型中的归一化层。通过重构 RMSNorm 并将其权重折叠到后续的线性层中，FlashNorm 实现了归一化和矩阵乘法的并行执行，从而降低了延迟。该方法还可以消除 Gemma 和 DeepSeek-V2 等架构中的预注意力 RMSNorm 层，简化实现并减少参数数量。
FRONTIER RELEASE · CL_01983 · May 6 · 23:37

DeepSeek-V2 以更低的成本和更多的专家超越 Mixtral 8x22B

DeepSeek AI 的新模型 DeepSeek-V2 在计算资源消耗显著少于 Mixtral 8x22B 的情况下，展现出更优越的性能。该先进模型采用了超过 160 个专家，使其能够以其前代模型一半的运营成本取得更好的结果。这一发展标志着高效大型语言模型设计方面迈出了重要一步。

DeepSeek V2发布大幅削减AI成本，挑战西方主导地位

开源大模型演进：注意力机制、多模态和效率提升

新的MLA注意力机制将LLM KV缓存削减高达10倍

OpenMythos 教程展示用于更深层计算的循环 Transformer

DeepSeek-V2 AI 以卓越的基准性能挑战 GPT-4

AI代理应将模型用于高价值决策，而非频繁任务

FlashNorm 加速 Transformer 推理，优化归一化层

DeepSeek-V2 以更低的成本和更多的专家超越 Mixtral 8x22B