实体 multi-query attention

multi-query attention

PulseAugur coverage of multi-query attention — every cluster mentioning multi-query attention across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_115129 · Jun 29 · 01:00

开源AI中Transformer注意力机制的演进

自诞生以来，Transformer架构的注意力机制经历了显著的演进，众多创新为更高效、更强大的大型语言模型做出了贡献。FlashAttention、多查询注意力（MQA）、分组查询注意力（GQA）和滑动窗口注意力（SWA）等创新极大地降低了内存需求并提高了推理性能。最新的进展，包括门控Delta网络（GDNs）等线性注意力变体和原生稀疏注意力（DSA）等稀疏注意力方法，正在进一步拓展边界，许多开源模型都采用了这些技术。
TOOL · CL_115074 · Jun 28 · 23:06

KV Cache 内存解析：估算和减少 LLM 中的 VRAM 使用量

KV Cache 是 LLM 推理的关键组成部分，会消耗大量 VRAM，尤其是在更长的上下文长度或更大的批处理大小时，其占用内存常常超过模型权重所需的内存。一个简单的公式可以估算 KV Cache 内存：2 × layers × hidden_dim × context_length × bytes_per_param。例如，Llama 3.1 70B 在 128K 上下文下，其 KV Cache 需要 340GB。像多查询注意力（M…
RESEARCH · CL_24900 · May 10 · 08:43

LLM KV缓存详解：速度与内存的权衡

大型语言模型利用KV缓存来加速推理，通过存储先前计算出的键（key）和值（value）向量，而不是为每个新令牌重新计算它们。该技术在初始、计算密集型的“预填充”（prefill）阶段（缓存构建时）之后，显著加快了令牌生成速度。然而，KV缓存以增加内存使用量为代价来减少计算量，缓存大小随上下文长度线性增长，并且在大规模部署时可能超过模型权重。

开源AI中Transformer注意力机制的演进

KV Cache 内存解析：估算和减少 LLM 中的 VRAM 使用量

LLM KV缓存详解：速度与内存的权衡