DeepSeek 最新的 V4 模型显著省略了 Engram,这是一个与北京大学共同开发的创新记忆和效率模块。Engram 的设计目的是通过允许直接知识查找而不是重新计算静态信息来增强 Transformer,人们曾预计它将成为 V4 的基础组成部分。尽管 Engram 未包含在 V4 中,但其原理正在后续研究中被探索,包括用于多机部署的 CXL 内存池、其哈希机制的实验验证以及向视觉模态的适应。 AI
影响 Engram 模块的原理,侧重于高效的知识检索,可能会显著提高 LLM 的推理速度并降低计算成本。
排序理由 文章讨论了 LLM 的一种新颖架构组件(Engram)、其理论基础、实验结果以及后续研究方向,而不是直接的模型发布或基准测试。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →