NVIDIA 发布了两款新的大型语言模型 Nemotron 3 Nano 和 Nemotron 3 Ultra,专注于效率和高级功能。Nemotron 3 Nano 是一款 30B 级模型,专为私有推理和代理工作流设计,采用混合 Mamba-Transformer Mixture-of-Experts 架构,并支持高达 100 万个 token 以实现长上下文应用。Nemotron 3 Ultra 是一款 550B 参数模型,采用类似的混合架构和 LatentMoE,实现了比同等规模模型更快的推理速度,并集成了原生推测解码,使用新颖的 4 位精度格式进行训练。 AI
影响 这些模型提供了高效的推理和长上下文能力,有可能降低部署高级 AI 代理和应用的门槛。
排序理由 NVIDIA 是一个前沿实验室,该集群描述了新模型(Nemotron 3 Nano 和 Nemotron 3 Ultra)的发布,并提供了其架构和功能的详细信息。[lever_c_demoted from frontier_release: ic=2 ai=1.0]
- LatentMoE
- Mamba
- mixture of experts
- Multi Token Prediction
- Nemotron 3 Ultra
- NVIDIA
- transformer
- GPT OSS 20B
- Mamba-2
- miniF2F
- Nemotron 3 Nano
- Qwen3–30B-A3B-Thinking-2507
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →