实体 KV caching

KV caching

PulseAugur coverage of KV caching — every cluster mentioning KV caching across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 4

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

RESEARCH · CL_115152 · Jun 26 · 05:26

苹果研究人员通过新的解码技术推进扩散语言模型

苹果的机器学习研究部门发表了几篇论文，详细介绍了扩散语言模型（dLLMs）的进展。与自回归模型相比，这些模型通过并行解码多个 token，有可能实现更快的推理。研究包括探索用于口语模型的连续扩散、通过残差上下文扩散（RCD）提高 dLLM 的效率，以及使用强化学习训练解遮蔽策略。其他工作则侧重于通过专家产品（PoE）等技术弥合扩散模型和自回归模型之间的差距，并开发统一不同解码策略的混合模型。
RESEARCH · CL_43924 · May 21 · 00:00

新的扩散模型可在消费级硬件上实现实时人工智能音乐生成

研究人员开发了实时音乐扩散模型（LMDMs），这是一种使用扩散模型进行交互式音乐生成的新方法，可以在消费级硬件上运行。LMDMs 通过块状 KV 缓存优化推理效率，并引入 ARC-Forcing 以在没有显式强化学习的情况下实现稳定的训练后对齐，从而改进了现有方法。这些模型已在各种创意应用中得到演示，包括文本条件生成、基于草图的合成以及实时艺术家-AI 协作，充当“生成延迟”以通过可变的音色效果转换即兴创作。
RESEARCH · CL_24900 · May 10 · 08:43

LLM KV缓存详解：速度与内存的权衡

大型语言模型利用KV缓存来加速推理，通过存储先前计算出的键（key）和值（value）向量，而不是为每个新令牌重新计算它们。该技术在初始、计算密集型的“预填充”（prefill）阶段（缓存构建时）之后，显著加快了令牌生成速度。然而，KV缓存以增加内存使用量为代价来减少计算量，缓存大小随上下文长度线性增长，并且在大规模部署时可能超过模型权重。
RESEARCH · CL_06742 · Apr 28 · 04:00

Stochastic KV Routing enables adaptive depth-wise cache sharing for LLMs

研究人员开发了一种名为 Stochastic KV Routing 的新方法，以减小 Transformer 语言模型的内存占用。该技术通过训练层随机关注先前层的 KV 状态，从而实现自适应的深度缓存共享。评估表明，该方法可以在不牺牲性能的情况下显著降低内存需求，甚至可以在数据受限的情况下充当一种正则化方法。