Mamba-2 · PulseAugur

SIGNIFICANT · CL_106351 · Jun 21 · 04:58

NVIDIA Nemotron 3 Nano：用于高效 AI 代理的开放模型

NVIDIA 发布了 Nemotron 3 Nano，这是一个拥有 300 亿参数的开放模型，专为高效推理和长上下文应用而设计。该模型采用了混合专家混合（Mixture-of-Experts）架构，每个 token 只激活其参数的一小部分，从而降低了强大推理性能的运营成本。Nemotron 3 Nano 在推理、编码和代理工作流基准测试中表现出竞争力，使其适用于构建需要处理大型文档或复杂任务的 AI 代理、编码助手和 RAG 系统的开发者。

SIGNIFICANT · CL_100955 · Jun 19 · 16:15

NVIDIA 发布高效 Nemotron 3 LLM 系列，采用混合架构

NVIDIA 发布了两款新的大型语言模型 Nemotron 3 Nano 和 Nemotron 3 Ultra，专注于效率和高级功能。Nemotron 3 Nano 是一款 30B 级模型，专为私有推理和代理工作流设计，采用混合 Mamba-Transformer Mixture-of-Experts 架构，并支持高达 100 万个 token 以实现长上下文应用。Nemotron 3 Ultra 是一款 550B 参数模型，采用类似…

RESEARCH · CL_95821 · Jun 16 · 16:18

Ternary Mamba通过知识蒸馏和QAT实现3.61倍压缩

研究人员开发了一种压缩状态空间模型（SSMs）如Mamba-2的新方法，显著减小了其在边缘部署时的内存占用。通过采用分组量化感知训练（QAT）并结合来自预训练FP16模型的知识蒸馏，他们将Mamba-2 1.3B压缩至744 MB，减少了3.61倍。该方法在比以往方法更小的token预算下实现了具有竞争力的零样本准确率，同时还识别出一种新颖的、仅存在于预训练SSM的QAT中的不稳定性，称为“零比率崩溃”。

RESEARCH · CL_95877 · Jun 16 · 01:04

新的 N-VSSM 模型在长篇叙事一致性方面超越 Claude Opus 4.5

研究人员开发了 NarrativeWorldBench，这是一个旨在评估大型语言模型 (LLM) 在长篇音频戏剧中保持叙事一致性能力的新基准。目前的尖端 LLM 在超过 200 集的叙事弧方面存在困难，情节节拍 F1 分数饱和在 0.8 左右。为解决此问题，他们引入了 N-VSSM，一个利用 Mamba-2 主干的叙事变分状态空间模型，该模型在各种周期中实现了至少 0.84 的情节节拍 F1 分数，并在与专业作者的合作研究中证明了比 …

TOOL · CL_84911 · Jun 11 · 04:00

Compiler-first duality enables portable O(1) Mamba-2 inference

研究人员开发了一种优化 Mamba-2 推理的新方法，重点关注编译器优先的状态空间对偶性。这种方法实现了具有 $O(1)$ 复杂度的便携式自回归缓存，无需自定义 CUDA 或 Triton 内核。最终的单源推理路径在 JAX 中实现，在 Google Cloud TPU 和 NVIDIA GPU 上展示了显著的加速，实现了高硬件利用率并匹配了参考困惑度分数。

RESEARCH · CL_84478 · Jun 10 · 17:33

xLSTM 在序列建模任务中优于 Mamba-2 和 DeltaNet

一篇新的研究论文比较了三种亚二次方架构——xLSTM、Mamba-2 和 Gated DeltaNet——在序列建模任务上的表现。研究发现，在代码模型预训练、蒸馏和时间序列基础模型方面，xLSTM 的表现优于其他模型。研究人员将 xLSTM 的卓越性能归因于其通过门控方案实现的灵活且稳定的记忆校正能力，从而能够进行稳健的状态跟踪和累积。

TOOL · CL_82633 · Jun 10 · 04:00

DF-SSM将Mamba-2压缩至1比特，提升速度并减小尺寸

研究人员开发了密度场状态空间模型（DF-SSM），这是一个将大型SSM压缩到1比特骨架的新颖框架，同时性能损失极小。将其应用于Mamba-2 1.3B后，该模型尺寸缩小了九倍以上，推理速度显著提升，同时性能接近1.58比特模型。蒸馏过程效率极高，仅需有限的数据和计算资源。除了压缩，该研究还分析了模型的内部知识组织，揭示了意图分类、知识检索和输出格式化的不同阶段，表明表征结构可以独立于强大的事实回忆而发展。

RESEARCH · CL_68175 · Jun 2 · 16:07

动态卷积提升LLM中Transformer的性能

研究人员引入了动态短卷积作为一种新的基元，以增强大型语言模型中使用的Transformer架构。这些动态卷积利用输入相关的滤波器，在保持传统卷积的局部性偏差的同时，提高了表达能力。实验表明，在各种参数规模下，与标准Transformer和静态卷积变体相比，性能持续提高，这表明在计算优势和推进基于Transformer的语言模型方面具有潜力。

TOOL · CL_65518 · Jun 2 · 04:00

Mamba-2 解释探测器遗漏了一半的状态汇聚

研究人员发现，理解 Mamba-2 内部工作机制的方法存在重大局限性。他们发现，旨在将表征签名与计算执行联系起来的标准探测技术，仅捕获了模型“状态汇聚”机制的一小部分。这些单桶探测器遗漏了一个具有相似表征模式的更大“检测层”，这凸显了模型中表征相似性与实际功能执行之间的差距。

RESEARCH · CL_62204 · May 29 · 11:13

新框架使用贝叶斯记忆统一序列模型

研究人员引入了一个“设计-模型”框架，用于基于记忆假设创建高效的循环序列映射。该框架使用贝叶斯滤波将证据写入记忆，并使用依赖于查询的读出进行预测。他们的“贝叶斯层”实例化跟踪存储关联中的不确定性，提高了记忆保持和检索的鲁棒性。

RESEARCH · CL_56423 · May 27 · 17:26

新的Oryx模型灵活地在Attention和Recurrent Mixers之间切换

研究人员推出了一种新颖的混合模型Oryx，该模型能够灵活地在给定序列中不同序列混合器（如二次Attention和线性循环）之间进行切换。这种方法允许通过Attention实现丰富的上下文利用，通过线性循环实现高效生成，同时跨模式共享超过90%的参数。通过Mamba-2和Gated DeltaNet变体（高达1.4B模型）进行的验证表明，Oryx在语言建模任务上取得了与单一混合器基线相当或更优的性能，并在检索任务上以显著更少的Atten…

TOOL · CL_48179 · May 24 · 12:31

PapersWithCode 增加多指标排行榜和外部论文支持

Hugging Face 为 PapersWithCode（一个跟踪人工智能最新进展的平台）推出了新功能。更新包括支持排行榜上的多个指标，例如自动语音识别和目标检测。该平台现在还支持 arXiv 以外的外部论文，自动为其添加相关标签和数据，并显示论文的演变过程，以展示后续或先前的研究。

TOOL · CL_44790 · May 22 · 04:00

WriteSAE 可直接操控循环语言模型状态

研究人员开发了 WriteSAE，这是一种新颖的稀疏自编码器，旨在操控循环语言模型状态内的矩阵更新。该方法学习秩-1 矩阵原子，直接替换模型自身的矩阵更新，在最终标记分布准确性方面显示出显著的改进。该技术已成功应用于 Gated DeltaNet 和 Mamba-2 等模型，展示了其在引导模型生成和理解内部状态动态方面的潜力。

RESEARCH · CL_43909 · May 21 · 17:44

NVIDIA 发布 Gated DeltaNet-2 以改进线性注意力

NVIDIA 推出了 Gated DeltaNet-2，这是一种新的线性注意力层，旨在改进循环神经网络中的内存编辑。该模型使用独立的通道门控机制，将擦除旧信息和写入新信息的过程分离开来，解决了先前 delta-rule 架构中的局限性。Gated DeltaNet-2 在 1000 亿 token 和 13 亿参数上进行了训练，在长上下文检索任务上表现优于 Mamba-2 和 KDA 等现有模型。

RESEARCH · CL_43911 · May 21 · 17:33

MambaGaze 框架使用 Mamba-2 进行认知负荷评估

研究人员开发了 MambaGaze，一个利用眼动追踪数据准确评估认知负荷的新框架。该系统利用双向 Mamba-2 有效建模长程时间依赖性，并采用 XMD 编码方法显式处理因眨眼等原因造成的缺失数据。MambaGaze 在基准数据集上的表现优于现有模型，并可在 NVIDIA Jetson 平台等边缘设备上进行实时部署。

FRONTIER RELEASE · CL_71083 · May 15 · 21:52

NVIDIA 发布 Nemotron-3 Ultra 550B LLM 以实现高级推理

NVIDIA 发布了其 Nemotron-3 Ultra 550B 模型，这是一个专为高级推理和代理工作流设计的大型语言模型。该模型采用混合 LatentMoE 架构，结合了 Mamba-2 和注意力层，支持高达 100 万个 token 的上下文长度。它针对多步代理、长上下文分析和多语言推理等复杂任务进行了优化，其推理能力可通过聊天模板进行配置。

TOOL · CL_32672 · May 14 · 14:16

REALM 框架为脑机接口实现 LFP 实时解码

研究人员开发了 REALM，这是一个用于脑机接口中局部场电位 (LFP) 实时解码的新框架。该方法使用回归蒸馏过程，将知识从强大的离线模型转移到更高效的因果模型。与现有的基于 LFP 的方法相比，REALM 显著提高了解码精度，同时减小了模型大小和训练时间，为下一代脑机接口提供了比尖峰解码更实用的替代方案。

TOOL · CL_15849 · May 5 · 04:00

组件感知自推测解码提升混合语言模型推理效率

研究人员开发了一种名为组件感知自推测解码的新方法，提高了混合语言模型的效率。该技术利用了这些模型内部的架构差异，特别是分离 Mamba-2 和线性注意力等子图以加快草稿生成。这种方法的有效性因模型的架构而异，并行混合模型的性能提升远高于顺序模型。

RESEARCH · CL_04999 · Apr 24 · 00:20

研究人员探讨混合语言模型中 LoRA 的最佳放置位置

一篇新论文探讨了 LoRA 适配器在混合语言模型中的最佳放置位置，该模型结合了注意力机制和循环组件。研究表明，调整注意力路径比全模型调整更有效，所需的参数也少得多。至关重要的是，研究发现调整循环骨干网络在顺序混合模型中可能是有害的，但在并行模型中有益，这凸显了拓扑感知调整策略的重要性。

SIGNIFICANT · CL_47662 · Mar 17 · 00:00

Together AI发布Mamba-3，优先考虑推理速度而非训练速度

Together AI发布了Mamba-3，这是一种新的状态空间模型（SSM），它优先考虑推理效率而非训练速度。该模型具有更具表现力的递归公式、复值状态跟踪以及增强准确性而不牺牲解码速度的多输入多输出（MIMO）变体。在1.5B参数规模下，Mamba-3 SISO在预填充和解码延迟方面表现优于之前的Mamba版本，甚至优于Llama-3.2-1B Transformer模型。该团队还开源了该模型的内核，这些内核是与卡内基梅隆大学、普林…