实体
paged attention
paged attention
PulseAugur coverage of paged attention — every cluster mentioning paged attention across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
LLM KV缓存详解:速度与内存的权衡
大型语言模型利用KV缓存来加速推理,通过存储先前计算出的键(key)和值(value)向量,而不是为每个新令牌重新计算它们。该技术在初始、计算密集型的“预填充”(prefill)阶段(缓存构建时)之后,显著加快了令牌生成速度。然而,KV缓存以增加内存使用量为代价来减少计算量,缓存大小随上下文长度线性增长,并且在大规模部署时可能超过模型权重。
-
通过推测性解码和分页注意力解释 LLM 训练和服务效率
Reiner Pope 发表了一项分析,详细介绍了大型语言模型训练和服务的数学和技术创新。该工作解释了推测性解码和分页注意力等技术如何提高前沿 AI 模型的效率。Pope 的研究借鉴了公开数据和方程,为这些先进系统提供了架构见解。