PulseAugur
实时 04:47:41
实体 Native Sparse Attention

Native Sparse Attention

PulseAugur coverage of Native Sparse Attention — every cluster mentioning Native Sparse Attention across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_115129 ·

    开源AI中Transformer注意力机制的演进

    自诞生以来,Transformer架构的注意力机制经历了显著的演进,众多创新为更高效、更强大的大型语言模型做出了贡献。FlashAttention、多查询注意力(MQA)、分组查询注意力(GQA)和滑动窗口注意力(SWA)等创新极大地降低了内存需求并提高了推理性能。最新的进展,包括门控Delta网络(GDNs)等线性注意力变体和原生稀疏注意力(DSA)等稀疏注意力方法,正在进一步拓展边界,许多开源模型都采用了这些技术。