NVIDIA 发布了 Nemotron 3 Ultra,一个拥有 5500 亿参数的开源模型,其推理速度比许多小型竞争对手更快。这种性能归功于一种结合了 Mamba 状态空间层和 Transformer 注意力的混合架构,该架构缓解了长上下文记忆瓶颈。该模型还采用了具有 512 个专家(每个 token 仅激活 22 个)的 LatentMoE 设计,并结合了多 token 预测以实现原生投机解码。 AI
影响 该模型的混合架构可能会影响未来大型模型的设计,特别是在需要长上下文的代理任务方面。
排序理由 前沿实验室模型发布,附带系统卡。[lever_c_降级自 frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →