PulseAugur
实时 23:50:01
English(EN) Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE) holds perfect needle retrieval to 504K tokens on 4×3090

Nemotron-3-Super-120B-A12B 采用 Mamba+MoE 架构实现 504K token 召回

NVIDIA 的 Nemotron-3-Super-120B-A12B 模型,一种混合 Mamba 和 Mixture-of-Experts 架构,已展示出高达 504,000 token 的完美召回能力。与传统的 KV 缓存方法相比,该模型利用 Mamba 层来维持恒定的循环状态,显著降低了长上下文相关的计算成本。该模型在拥有约 71GB 显存的四块 3090 GPU 上运行,在扩展上下文长度时实现了令人印象深刻的解码速度,性能优于同类全注意力模型。 AI

影响 展示了基于 Mamba 的架构在大语言模型中高效处理长上下文的潜力。

排序理由 新模型架构的发布及基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Nemotron-3-Super-120B-A12B 采用 Mamba+MoE 架构实现 504K token 召回

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Important_Quote_1180 ·

    Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE) holds perfect needle retrieval to 504K tokens on 4×3090

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1ugj1sf/nemotron3super120ba12b_hybrid_mambamoe_holds/"> <img alt="Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE) holds perfect needle retrieval to 504K tokens on 4×3090" src="https://preview.redd.it/yjkv9o56zo9…