研究人员发布了 Nemotron 3 Ultra,这是一个拥有 5500 亿参数的语言模型,它采用了混合 Mamba-Transformer 架构和专家混合(Mixture-of-Experts)方法。该模型在 20 万亿个 token 上进行了训练,拥有百万级 token 的上下文长度,并采用了 LatentMoE 和 Multi Token Prediction 等先进技术。与当前最先进的模型相比,Nemotron 3 Ultra 的推理吞吐量最高可提高六倍,同时保持了相当的准确性,使其适用于复杂的智能体任务。该模型的检查点、训练数据和方法已在 Hugging Face 上开源。 AI
影响 这款高吞吐量、长上下文模型的开源发布可能会加速智能体 AI 的开发和研究。
排序理由 该集群描述了一篇介绍新型语言模型架构及其性能的新研究论文,并包含开源组件。
- Hugging Face
- LatentMoE
- Mamba-Transformer
- Mixture-of-Experts
- Multi Token Prediction
- Nemotron 3 Ultra
- NVFP4
- Multi-Teacher On-Policy Distillation
- RLVR
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →