实体 PagedAttention

PagedAttention

PulseAugur coverage of PagedAttention — every cluster mentioning PagedAttention across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_117583 · Jun 30 · 04:00

HARD-KV 框架将 LLM 推理速度提升 2 倍

研究人员开发了 HARD-KV，一个旨在优化长上下文大型语言模型 (LLM) 推理的新框架。该系统解决了头自适应压缩算法（通过动态内存预算提供准确性）与需要静态内存模式以提高效率的现代推理引擎（如 vLLM）之间的冲突。HARD-KV 引入了级联缓存 (Cascade Cache) 层级结构和逻辑校准 (Logits Calibration) 机制，以统一重要性指标并为不同模型头实现一致的预算分配。实验表明，HARD-KV 在保持超过…
TOOL · CL_106135 · Jun 20 · 01:36

KV 缓存内存问题困扰 LLM 服务，vLLM 的 PagedAttention 提供解决方案

KV 缓存是 LLM 推理中的关键组件，它存储过去的计算结果，以避免为每个新 token 重新计算。然而，其内存占用可能成为一个重大瓶颈，尤其是在具有并发用户和长上下文窗口的生产环境中。单个序列可能消耗数 GB 的内存，当有多个对话同时进行时，会迅速超出 GPU 容量。传统方法为 KV 缓存预先分配大块连续内存，导致内部碎片化和内存浪费，因为大多数对话并未达到分配的最大长度。
TOOL · CL_54473 · May 27 · 10:03

Ollama、LM Studio、vLLM：选择合适的本地 LLM 运行时

本文比较了三种本地 LLM 运行时：Ollama、LM Studio 和 vLLM，重点关注它们在生产环境中的适用性。Ollama 因其易于设置和兼容 OpenAI 的 API 而受到关注，非常适合快速的本地开发工作流程，但其批处理支持有限。LM Studio 因其以 GUI 为中心的设计和缺乏并发负载处理能力而被排除在生产环境之外。vLLM 被认为是强大的生产解决方案，提供 PagedAttention 和连续批处理等高级功能以实现…
RESEARCH · CL_40163 · May 18 · 22:35

KV 缓存优化解决 LLM GPU 内存瓶颈

大型语言模型 (LLM) 在服务效率方面面临着显著的瓶颈，原因是 KV 缓存的内存需求，它存储中间注意力计算。这个 KV 缓存对于实现更快的响应和处理更长的上下文窗口至关重要，但它会消耗高达 80% 的 GPU 内存。像 vLLM 的 PagedAttention 这样的创新，其灵感来自操作系统内存管理，通过优化 KV 缓存存储和减少内存碎片来解决这个问题，从而显著提高推理吞吐量。
RESEARCH · CL_36289 · May 28 · 00:00

LLM 推理和推理技术随着新研究和硬件的进步而发展

研究人员正在探索新的方法来提高大型语言模型 (LLM) 的效率和推理能力。Google Research 正在开发训练 LLM 以贝叶斯方式进行推理的技术，从而提高它们更新概率估计和泛化到新任务的能力。同时，推理优化方面的进展包括“投机级联”，它将更小、更快的模型与更大的模型结合起来，以及“上下文回收”来管理长对话范围。此外，正在开发“级联多粒度剪枝”和“SharQ”等方法来压缩 LLM 以进行设备上推理，从而在保持准确性的同时降低延…