实体
KV caching
KV caching
PulseAugur coverage of KV caching — every cluster mentioning KV caching across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
新的扩散模型支持实时AI音乐生成
研究人员开发了实时音乐扩散模型(LMDMs),这是一种将音频扩散模型适应于消费级硬件上进行实时、交互式音乐生成的新方法。这些模型解决了当前扩散管线中的效率低下问题,通过分块KV缓存实现了比现有离散AR模型更好的计算性能。LMDMs还引入了ARC-Forcing,无需RL即可实现稳定的训练后对齐,从而能够实现文本条件生成、草图合成和艺术家-AI实时协作等应用。
-
LLM KV缓存详解:速度与内存的权衡
大型语言模型利用KV缓存来加速推理,通过存储先前计算出的键(key)和值(value)向量,而不是为每个新令牌重新计算它们。该技术在初始、计算密集型的“预填充”(prefill)阶段(缓存构建时)之后,显著加快了令牌生成速度。然而,KV缓存以增加内存使用量为代价来减少计算量,缓存大小随上下文长度线性增长,并且在大规模部署时可能超过模型权重。
-
Stochastic KV Routing enables adaptive depth-wise cache sharing for LLMs
Researchers have developed a new method called Stochastic KV Routing to reduce the memory footprint of transformer language models. This technique enables adaptive depth-wise cache sharing by training layers to randomly…