English(EN) Nemotron 3 Ultra: How NVIDIA Built a 550B Open Model That Runs Faster Than Its Smaller Rivals

NVIDIA 发布高效 Nemotron 3 LLM 系列，采用混合架构

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 16:15

NVIDIA 发布了两款新的大型语言模型 Nemotron 3 Nano 和 Nemotron 3 Ultra，专注于效率和高级功能。Nemotron 3 Nano 是一款 30B 级模型，专为私有推理和代理工作流设计，采用混合 Mamba-Transformer Mixture-of-Experts 架构，并支持高达 100 万个 token 以实现长上下文应用。Nemotron 3 Ultra 是一款 550B 参数模型，采用类似的混合架构和 LatentMoE，实现了比同等规模模型更快的推理速度，并集成了原生推测解码，使用新颖的 4 位精度格式进行训练。 AI

影响这些模型提供了高效的推理和长上下文能力，有可能降低部署高级 AI 代理和应用的门槛。

排序理由 NVIDIA 是一个前沿实验室，该集群描述了新模型（Nemotron 3 Nano 和 Nemotron 3 Ultra）的发布，并提供了其架构和功能的详细信息。[lever_c_demoted from frontier_release: ic=2 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Prabhakar Chaudhary · 2026-06-19 16:15

Nemotron 3 Ultra: How NVIDIA Built a 550B Open Model That Runs Faster Than Its Smaller Rivals

<h1> Nemotron 3 Ultra: How NVIDIA Built a 550B Open Model That Runs Faster Than Its Smaller Rivals </h1> <p>NVIDIA's Nemotron 3 Ultra, released on June 4, 2026, is a 550-billion-parameter open model that manages to outrun several competing models with far fewer active parameters …

报道来源 [1]

Nemotron 3 Ultra: How NVIDIA Built a 550B Open Model That Runs Faster Than Its Smaller Rivals

相关实体

相关话题