实体 paged attention

paged attention

PulseAugur coverage of paged attention — every cluster mentioning paged attention across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_24900 · May 10 · 08:43

LLM KV缓存详解：速度与内存的权衡

大型语言模型利用KV缓存来加速推理，通过存储先前计算出的键（key）和值（value）向量，而不是为每个新令牌重新计算它们。该技术在初始、计算密集型的“预填充”（prefill）阶段（缓存构建时）之后，显著加快了令牌生成速度。然而，KV缓存以增加内存使用量为代价来减少计算量，缓存大小随上下文长度线性增长，并且在大规模部署时可能超过模型权重。
RESEARCH · CL_09381 · Apr 29 · 18:12

通过推测性解码和分页注意力解释 LLM 训练和服务效率

Reiner Pope 发表了一项分析，详细介绍了大型语言模型训练和服务的数学和技术创新。该工作解释了推测性解码和分页注意力等技术如何提高前沿 AI 模型的效率。Pope 的研究借鉴了公开数据和方程，为这些先进系统提供了架构见解。