KV cache · PulseAugur

TriRoute 论文介绍统一控制器以实现自适应 LLM 推理

研究人员推出 TriRoute，这是一个新颖的系统，旨在通过联合管理注意力分辨率、专家选择和 KV 缓存量化来优化语言模型推理成本。这个统一控制器为每一层的每个 token 调整其策略，确定注意模式、FFN 专家使用情况和 KV 缓存位宽。TriRoute 在独立优化方法上展示了帕累托优势，在处理稀有实体、代码和算术方面显著提高了性能，同时保持了鲁棒性。

COMMENTARY · CL_130266 · Jul 7 · 12:11

用户询问 MoE 模型 KV 缓存的扩展方式

一位 Reddit 用户正在询问混合专家（MoE）模型中 KV 缓存的扩展行为。他们了解到 MoE 模型与总参数量相比，使用的计算量和内存量较少，但不确定 KV 缓存是与活动参数还是模型总参数一起扩展。

TOOL · CL_128746 · Jul 7 · 04:00

Metronome 系统约束 AI 模型缓存以实现实时交互稳定性

研究人员开发了一个名为 Metronome 的新系统，旨在改进交互式 AI 模型的实时服务。这类模型，例如 Moshi、MiniCPM-o 和 Qwen Omni，面临一个关键问题：持续负载可能导致突然的、灾难性的故障，而不是逐渐的性能下降。Metronome 通过约束每个会话的缓存大小来解决这个问题，从而提高稳定性和对系统性能的可观测性。这种约束机制可以防止 KV 缓存耗尽其容量，使在线准入控制器能够准确确定可调度的并发量并避免过度准入。

RESEARCH · CL_120882 · Jul 1 · 22:35

提示和KV缓存技术将LLM推理速度和成本削减 · 跟踪3个来源

提示缓存和KV缓存是高效LLM推理的关键优化，可显著降低延迟和成本。提示缓存会在设定的时间内存储对相同提示的响应，默认的五分钟TTL在新鲜度和效率之间取得平衡，在80%的命中率下可能将成本降低高达64%。KV缓存对于实时聊天至关重要，它存储先前token的键（Key）和值（Value）状态，将生成过程从二次方复杂度转变为线性复杂度，并支持更长的上下文窗口，尽管它会消耗大量GPU内存。

RESEARCH · CL_119630 · Jun 30 · 11:32

新的RaBitQCache框架加速了长上下文LLM推理

研究人员开发了RaBitQCache，一个旨在加速长上下文大语言模型（LLM）推理的新框架。该方法通过采用随机旋转二值化和高效的二值-INT4算术来估计注意力权重，解决了键值（KV）缓存造成的瓶颈。该系统使用无偏代理分数进行自适应检索，根据注意力稀疏性动态调整令牌预算，并包含硬件感知的异步流水线和延迟更新优化。评估表明，RaBitQCache在保持生成质量的同时，显著提高了推理速度并减少了内存I/O。

RESEARCH · CL_129591 · Jun 30 · 00:00

新的GORGO架构优化LLM推理负载均衡

一种名为GORGO的新代理架构已被开发出来，通过考虑网络延迟、预填充成本和排队延迟来优化LLM推理负载均衡。该系统使用进化策略在合成数据集上进行调优以提高性能，与基线策略相比，延迟显著降低。该方法旨在通过充当中央网关来应对管理多提供商LLM流量的挑战，例如成本、性能和可靠性。

TOOL · CL_115682 · Jun 29 · 04:00

新的强化学习框架优化LLM KV缓存以实现高效推理

研究人员开发了一个名为KV Policy (KVP) 的新颖框架，通过优化键值（KV）缓存来解决大型语言模型（LLM）的内存需求。KVP将KV缓存驱逐重构为一个强化学习问题，训练轻量级代理来预测未来解码的token有用性。该方法在长上下文和多轮对话基准测试中显著优于现有的启发式方法，并展示了在不改变底层LLM的情况下泛化到新任务和更长序列长度的能力。

TOOL · CL_115074 · Jun 28 · 23:06

KV Cache 内存解析：估算和减少 LLM 中的 VRAM 使用量

KV Cache 是 LLM 推理的关键组成部分，会消耗大量 VRAM，尤其是在更长的上下文长度或更大的批处理大小时，其占用内存常常超过模型权重所需的内存。一个简单的公式可以估算 KV Cache 内存：2 × layers × hidden_dim × context_length × bytes_per_param。例如，Llama 3.1 70B 在 128K 上下文下，其 KV Cache 需要 340GB。像多查询注意力（M…

RESEARCH · CL_109420 · Jun 25 · 01:12

Engram 通过将知识嵌入权重而非仅限于上下文来引领AI“记忆”

AI初创公司Engram正在开发一种新颖的AI记忆和持续学习方法，旨在将专业知识直接嵌入模型权重，而不是仅仅依赖检索增强生成（RAG）或大型上下文窗口。该公司由理论神经科学和计算机系统架构领域的专家创立，他们认为这种方法将使AI模型能够更像经验丰富的员工一样运作，直观地理解特定的组织知识。Engram的策略涉及轻量级训练技术和适配器，并着眼于为每个人和每个团队打造个性化AI模型的长远愿景。

RESEARCH · CL_108502 · Jun 24 · 10:18

新的 EpiKV 方法优化 LLM KV 缓存，提高效率和上下文长度

一篇新研究论文介绍了一种名为 EpiKV 的方法，用于优化大型语言模型中的 KV 缓存淘汰。与依赖注意力权重的先前方法不同，EpiKV 使用源自模型内部表征变化的“顿悟分数”。这种方法避免了计算注意力矩阵的需要，能够实现融合内核集成，并显著提高上下文长度的处理能力。实验表明，EpiKV 在 MATH-500 和 AIME-2024 等基准测试中表现与基线相当或更优，同时提供了显著的速度提升。

RESEARCH · CL_109581 · Jun 23 · 22:00

ASAP框架通过代理-系统协同设计增强机器学习超参数优化

研究人员开发了ASAP，一种用于机器学习实验中超参数优化（HPO）的新型代理-系统协同设计框架。ASAP通过整合多样化的优化器池、允许LLM选择建议以及优化系统循环以减少挂钟时间，解决了现有HPO工具的局限性。与单一工具替代方案相比，这种方法旨在提高样本效率并处理更广泛的问题。

RESEARCH · CL_107863 · Jun 22 · 21:42

Nexus Sampling 改进 LLM KV 缓存驱逐，减少内存使用

研究人员开发了 Nexus Sampling，一种用于大型语言模型 KV 缓存驱逐的新颖方法，特别适用于长上下文和代理工作负载。这种无需训练的方法将 Nexus 评分与加权水库采样相结合，以保留可能因确定性 top-K 选择而丢失的重要 token。Nexus Sampling 在保留细微重要 token 方面理论上优于传统方法，并在 LongBench 等基准测试中实证达到了与密集注意力相当的性能，同时显著减少了缓存内存使用。

TOOL · CL_105112 · Jun 22 · 16:47

Kamera方法通过位置不变KV缓存增强多模态AI效率

研究人员开发了一种名为Kamera的新方法，解决了多模态AI代理重复编码来自重复视频帧或UI屏幕截图的信息的效率低下问题。该技术引入了一个无训练的、低秩的条件化patch，以及无位置的块，从而恢复了在朴素KV缓存重用过程中丢失的跨块绑定。通过实现精确的RoPE重新旋转和patch恢复，Kamera显著降低了重新排序、滑动窗口生存和召回等操作的重新计算成本，同时保持了任务准确性并最小化了KV占用空间。

RESEARCH · CL_106564 · Jun 21 · 08:48

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

多篇研究论文探讨了优化大语言模型（LLM）服务中的键值（KV）缓存的新技术，以解决内存和性能瓶颈。这些方法包括量化、剪枝、合并和频率引导压缩，旨在减少内存使用并提高长上下文工作负载的推理速度。研究评估了这些技术在各种基准测试和模型上的表现，强调了压缩率、任务质量和系统性能之间的权衡，并建议根据工作负载选择压缩策略。

TOOL · CL_104774 · Jun 20 · 03:12

无键注意力机制将KV缓存减半，提高Transformer效率

研究人员推出了一种新颖的Transformer注意力机制——无键注意力（Keyless Attention），该机制完全消除了键投影，仅基于查询（queries）和值（values）进行操作。与标准注意力相比，这种方法产生了一个仅值缓存（Value-Only Cache），将KV缓存内存和访问开销减半，同时保持或提高了解码吞吐量。该机制还实现了深度注意力因子分解（Depth-m Attention Factorization），实验表…

TOOL · CL_106135 · Jun 20 · 01:36

KV 缓存内存问题困扰 LLM 服务，vLLM 的 PagedAttention 提供解决方案

KV 缓存是 LLM 推理中的关键组件，它存储过去的计算结果，以避免为每个新 token 重新计算。然而，其内存占用可能成为一个重大瓶颈，尤其是在具有并发用户和长上下文窗口的生产环境中。单个序列可能消耗数 GB 的内存，当有多个对话同时进行时，会迅速超出 GPU 容量。传统方法为 KV 缓存预先分配大块连续内存，导致内部碎片化和内存浪费，因为大多数对话并未达到分配的最大长度。

FRONTIER RELEASE · CL_103597 · Jun 19 · 09:40

百度发布Unlimited OCR，具有恒定的KV缓存用于长文档

百度发布了Unlimited OCR，这是一个30亿参数的混合专家模型，专为高效的长文档解析而设计。该模型利用参考滑动窗口注意力（R-SWA）来保持恒定的KV缓存，克服了传统OCR模型在处理长输出时面临的内存和速度限制。这项创新使得Unlimited OCR能够在一个前向传播中处理数十页文档，并在OmniDocBench v1.5等基准测试中取得了最先进的性能。

TOOL · CL_99437 · Jun 18 · 23:31

AWS SageMaker 通过 CloudWatch 仪表板增强 AI 推理监控

Amazon SageMaker 通过在 Amazon CloudWatch 中集成详细指标和新的 Insights 仪表板，增强了对生成式 AI 推理端点的监控能力。此次升级通过提供超过 100 项新指标，使用户能够更有效地解决 GPU 内存压力或延迟峰值等问题。SageMaker Insights 仪表板跨性能、容量和可靠性提供车队、端点和推理组件级别的视图，简化了复杂多模型部署的可观察性。

RESEARCH · CL_99962 · Jun 18 · 17:49

新型“执行状态胶囊”加速设备端AI服务

研究人员推出了一种名为“执行状态胶囊”的新方法，用于在设备端服务过程中管理和重用AI模型的完整状态。该方法能够快速检查点和恢复AI的完整执行状态，包括KV缓存、循环状态和其他参数，超越了传统的KV缓存重用。该系统已在RTX 5090和Jetson AGX Thor等硬件上进行了演示，实现了亚毫秒级的恢复时间和交互式AI应用中首个token时间的显著加速。

TOOL · CL_96117 · Jun 17 · 04:00

新研究使LLM的KV缓存可编辑且可组合

一篇新的研究论文介绍了一种优化大型语言模型（LLM）中KV缓存使用的新方法，该方法可在预填充阶段实现可编辑且可组合的笔记。这种方法能够高效地编辑模型结论，并无缝集成预编译的技能，从而显著降低延迟和计算成本。该方法已在各种模型架构和注意力变体中得到验证，展示了性能的显著提升，尤其是在与现有的前缀缓存技术集成时。