English(EN) Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE) holds perfect needle retrieval to 504K tokens on 4×3090

Nemotron-3-Super-120B-A12B 采用 Mamba+MoE 架构实现 504K token 召回

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 21:06

NVIDIA 的 Nemotron-3-Super-120B-A12B 模型，一种混合 Mamba 和 Mixture-of-Experts 架构，已展示出高达 504,000 token 的完美召回能力。与传统的 KV 缓存方法相比，该模型利用 Mamba 层来维持恒定的循环状态，显著降低了长上下文相关的计算成本。该模型在拥有约 71GB 显存的四块 3090 GPU 上运行，在扩展上下文长度时实现了令人印象深刻的解码速度，性能优于同类全注意力模型。 AI

影响展示了基于 Mamba 的架构在大语言模型中高效处理长上下文的潜力。

排序理由新模型架构的发布及基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Nemotron-3-Super-120B-A12B 采用 Mamba+MoE 架构实现 504K token 召回

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Important_Quote_1180 · 2026-06-26 21:06

Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE) holds perfect needle retrieval to 504K tokens on 4×3090

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1ugj1sf/nemotron3super120ba12b_hybrid_mambamoe_holds/"> <img alt="Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE) holds perfect needle retrieval to 504K tokens on 4×3090" src="https://preview.redd.it/yjkv9o56zo9…

报道来源 [1]

Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE) holds perfect needle retrieval to 504K tokens on 4×3090

相关实体

相关话题