PulseAugur
实时 10:52:37
English(EN) Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Nemotron 3 Ultra:开源 LLM 拥有百万级上下文、6倍吞吐量

研究人员发布了 Nemotron 3 Ultra,这是一个拥有 5500 亿参数的语言模型,它采用了混合 Mamba-Transformer 架构和专家混合(Mixture-of-Experts)方法。该模型在 20 万亿个 token 上进行了训练,拥有百万级 token 的上下文长度,并采用了 LatentMoEMulti Token Prediction 等先进技术。与当前最先进的模型相比,Nemotron 3 Ultra 的推理吞吐量最高可提高六倍,同时保持了相当的准确性,使其适用于复杂的智能体任务。该模型的检查点、训练数据和方法已在 Hugging Face 上开源。 AI

影响 这款高吞吐量、长上下文模型的开源发布可能会加速智能体 AI 的开发和研究。

排序理由 该集群描述了一篇介绍新型语言模型架构及其性能的新研究论文,并包含开源组件。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · NVIDIA (Allan), : (Allan), Aaron Blakeman (Allan), Aaron Thomas (Allan), Aastha Jhunjhunwala (Allan), Abhibha Gupta (Allan), Abhinav Khattar (Allan), Adam Rajfer (Allan), Adi Renduchintala (Allan), Adil Asif (Allan), Aditya Vavre (Allan), Adriana Flores… ·

    Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

    arXiv:2606.15007v1 Announce Type: cross Abstract: We introduce Nemotron 3 Ultra, a 550 billion total and 55 billion active parameter Mixture-of-Experts Hybrid Mamba-Attention language model. We pre-trained Nemotron 3 Ultra on 20 trillion text tokens, then extended the context len…

  2. Hugging Face Daily Papers TIER_1 English(EN) ·

    Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

    Nemotron 3 Ultra is a large-scale language model featuring hybrid Mamba-Attention architecture with 550 billion parameters, achieving high inference throughput and extended context length through specialized training techniques.