实体 Native Sparse Attention

Native Sparse Attention

PulseAugur coverage of Native Sparse Attention — every cluster mentioning Native Sparse Attention across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_115129 · Jun 29 · 01:00

开源AI中Transformer注意力机制的演进

自诞生以来，Transformer架构的注意力机制经历了显著的演进，众多创新为更高效、更强大的大型语言模型做出了贡献。FlashAttention、多查询注意力（MQA）、分组查询注意力（GQA）和滑动窗口注意力（SWA）等创新极大地降低了内存需求并提高了推理性能。最新的进展，包括门控Delta网络（GDNs）等线性注意力变体和原生稀疏注意力（DSA）等稀疏注意力方法，正在进一步拓展边界，许多开源模型都采用了这些技术。

开源AI中Transformer注意力机制的演进