实体
PagedAttention
PagedAttention
PulseAugur coverage of PagedAttention — every cluster mentioning PagedAttention across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
KV 缓存优化解决 LLM GPU 内存瓶颈
大型语言模型 (LLM) 在服务效率方面面临着显著的瓶颈,原因是 KV 缓存的内存需求,它存储中间注意力计算。这个 KV 缓存对于实现更快的响应和处理更长的上下文窗口至关重要,但它会消耗高达 80% 的 GPU 内存。像 vLLM 的 PagedAttention 这样的创新,其灵感来自操作系统内存管理,通过优化 KV 缓存存储和减少内存碎片来解决这个问题,从而显著提高推理吞吐量。
-
New simulators and frameworks enhance LLM training, inference, and fine-tuning
Researchers have developed several new tools and frameworks to improve the efficiency and accuracy of large language model (LLM) operations. Charon and Frontier are simulators designed to predict LLM training and infere…