PulseAugur
实时 09:20:59
实体 Mamba-2

Mamba-2

PulseAugur coverage of Mamba-2 — every cluster mentioning Mamba-2 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
8
90 天内 8
发布 · 30天
0
90 天内 0
论文 · 30天
7
90 天内 7
层级分布 · 90 天
关系
情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 8 条
  1. TOOL · CL_48179 ·

    PapersWithCode 增加多指标排行榜和外部论文支持

    Hugging Face 为 PapersWithCode(一个跟踪人工智能最新进展的平台)推出了新功能。更新包括支持排行榜上的多个指标,例如自动语音识别和目标检测。该平台现在还支持 arXiv 以外的外部论文,自动为其添加相关标签和数据,并显示论文的演变过程,以展示后续或先前的研究。

  2. TOOL · CL_44790 ·

    WriteSAE 可直接操控循环语言模型状态

    研究人员开发了 WriteSAE,这是一种新颖的稀疏自编码器,旨在操控循环语言模型状态内的矩阵更新。该方法学习秩-1 矩阵原子,直接替换模型自身的矩阵更新,在最终标记分布准确性方面显示出显著的改进。该技术已成功应用于 Gated DeltaNet 和 Mamba-2 等模型,展示了其在引导模型生成和理解内部状态动态方面的潜力。

  3. RESEARCH · CL_43909 ·

    NVIDIA 发布 Gated DeltaNet-2 以改进线性注意力

    NVIDIA 推出了 Gated DeltaNet-2,这是一种新的线性注意力层,旨在改进循环神经网络中的内存编辑。该模型使用独立的通道门控机制,将擦除旧信息和写入新信息的过程分离开来,解决了先前 delta-rule 架构中的局限性。Gated DeltaNet-2 在 1000 亿 token 和 13 亿参数上进行了训练,在长上下文检索任务上表现优于 Mamba-2 和 KDA 等现有模型。

  4. RESEARCH · CL_43911 ·

    MambaGaze 框架使用 Mamba-2 进行认知负荷评估

    研究人员开发了 MambaGaze,一个利用眼动追踪数据准确评估认知负荷的新框架。该系统利用双向 Mamba-2 有效建模长程时间依赖性,并采用 XMD 编码方法显式处理因眨眼等原因造成的缺失数据。MambaGaze 在基准数据集上的表现优于现有模型,并可在 NVIDIA Jetson 平台等边缘设备上进行实时部署。

  5. TOOL · CL_32672 ·

    REALM framework enables real-time LFP decoding for BCIs

    Researchers have developed REALM, a new framework for real-time decoding of local field potentials (LFPs) in brain-computer interfaces. This method uses a retrospective distillation process to transfer knowledge from a …

  6. TOOL · CL_15849 ·

    Component-aware self-speculative decoding boosts hybrid language model inference

    Researchers have developed a new method called component-aware self-speculative decoding, which enhances the efficiency of hybrid language models. This technique leverages the internal architectural differences within t…

  7. RESEARCH · CL_04999 ·

    Researchers explore optimal LoRA placement in hybrid language models

    A new paper explores the optimal placement of LoRA adapters in hybrid language models, which combine attention and recurrent components. The research demonstrates that adapting the attention pathway is more effective th…

  8. SIGNIFICANT · CL_47662 ·

    Together AI发布Mamba-3,优先考虑推理速度而非训练速度

    Together AI发布了Mamba-3,这是一种新的状态空间模型(SSM),它优先考虑推理效率而非训练速度。该模型具有更具表现力的递归公式、复值状态跟踪以及增强准确性而不牺牲解码速度的多输入多输出(MIMO)变体。在1.5B参数规模下,Mamba-3 SISO在预填充和解码延迟方面表现优于之前的Mamba版本,甚至优于Llama-3.2-1B Transformer模型。该团队还开源了该模型的内核,这些内核是与卡内基梅隆大学、普林…