NVIDIA 的 Nemotron-3-Super-120B-A12B 模型,一种混合 Mamba 和 Mixture-of-Experts 架构,已展示出高达 504,000 token 的完美召回能力。与传统的 KV 缓存方法相比,该模型利用 Mamba 层来维持恒定的循环状态,显著降低了长上下文相关的计算成本。该模型在拥有约 71GB 显存的四块 3090 GPU 上运行,在扩展上下文长度时实现了令人印象深刻的解码速度,性能优于同类全注意力模型。 AI
影响 展示了基于 Mamba 的架构在大语言模型中高效处理长上下文的潜力。
排序理由 新模型架构的发布及基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →