Mamba-3
PulseAugur coverage of Mamba-3 — every cluster mentioning Mamba-3 across labs, papers, and developer communities, ranked by signal.
- 2026-03-17 product_launch Together AI released Mamba-3, a new state space model focused on inference efficiency. 来源
3 天有情绪数据
-
PapersWithCode 增加多指标排行榜和外部论文支持
Hugging Face 为 PapersWithCode(一个跟踪人工智能最新进展的平台)推出了新功能。更新包括支持排行榜上的多个指标,例如自动语音识别和目标检测。该平台现在还支持 arXiv 以外的外部论文,自动为其添加相关标签和数据,并显示论文的演变过程,以展示后续或先前的研究。
-
NVIDIA 发布 Gated DeltaNet-2 以改进线性注意力
NVIDIA 推出了 Gated DeltaNet-2,这是一种新的线性注意力层,旨在改进循环神经网络中的内存编辑。该模型使用独立的通道门控机制,将擦除旧信息和写入新信息的过程分离开来,解决了先前 delta-rule 架构中的局限性。Gated DeltaNet-2 在 1000 亿 token 和 13 亿参数上进行了训练,在长上下文检索任务上表现优于 Mamba-2 和 KDA 等现有模型。
-
Mamba-3 AI architecture gains researcher attention for efficiency
Mamba-3, a new AI architecture, is generating excitement among researchers due to its innovative approach to handling long sequences of data efficiently. This architecture utilizes a state-space model design, which allo…
-
Together AI发布Mamba-3,优先考虑推理速度而非训练速度
Together AI发布了Mamba-3,这是一种新的状态空间模型(SSM),它优先考虑推理效率而非训练速度。该模型具有更具表现力的递归公式、复值状态跟踪以及增强准确性而不牺牲解码速度的多输入多输出(MIMO)变体。在1.5B参数规模下,Mamba-3 SISO在预填充和解码延迟方面表现优于之前的Mamba版本,甚至优于Llama-3.2-1B Transformer模型。该团队还开源了该模型的内核,这些内核是与卡内基梅隆大学、普林…