实体 KV cache quantization

KV cache quantization

PulseAugur coverage of KV cache quantization — every cluster mentioning KV cache quantization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 6

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

research 1
tool 4
meme 1

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_178284 · Aug 3 · 04:00

WitCert系统提供实时KV缓存量化风险监控

研究人员开发了WitCert，一个旨在实时监控和控制KV缓存量化相关风险的系统。该工具提供了一个可证明可靠的运行时度量器，能够在细粒度级别上提供精确和压缩注意力之间的差异的上限。WitCert可以集成到服务系统中，以确保压缩不会降低正在进行的请求的质量，实证结果显示其恢复了质量底线并提高了效率。
RESEARCH · CL_106564 · Jun 21 · 08:48

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

多篇研究论文探讨了优化大语言模型（LLM）服务中的键值（KV）缓存的新技术，以解决内存和性能瓶颈。这些方法包括量化、剪枝、合并和频率引导压缩，旨在减少内存使用并提高长上下文工作负载的推理速度。研究评估了这些技术在各种基准测试和模型上的表现，强调了压缩率、任务质量和系统性能之间的权衡，并建议根据工作负载选择压缩策略。
TOOL · CL_99039 · Jun 18 · 12:51

NVFP4 量化有望提升 32GB VRAM 系统的 LLM 性能

一种名为 NVFP4 的新量化技术正在开发中，旨在提高大型语言模型在消费级硬件上的性能。该方法专门针对 KV 缓存量化，目标是使拥有 32GB VRAM 的系统能够更有效地运行模型。目标是实现更高的生成速度，正如一位用户使用相关技术在 32GB VRAM 设置上使用 Qwen3.6-27B 模型实现了大约 60 tokens/sec 的速度所展示的那样。
TOOL · CL_94638 · Jun 16 · 13:17

Gemma 4 模型部署与量化性能探索

该集群详细介绍了 12B Gemma 4 模型（包括其量化感知训练 (QAT) 变体）的部署和性能。文章提供了在 Google Cloud Run 和 Compute Engine 上部署 Gemma 4 的分步指南，利用了 Blackwell 6000 和 L4 GPU 等 NVIDIA 硬件。一篇 Reddit 帖子指出，Gemma 4 QAT 在 KV 缓存量化方面似乎表现明显更好，这表明 Q8_0 量化可能再次可行。
MEME · CL_74720 · Jun 6 · 09:24

本地LLM用户报告大上下文导致JSON错误

r/LocalLLaMA subreddit上的用户遇到了JSON解析错误，具体表现为“解析值时出现语法错误 - 无效字符串：缺少结束引号；最后读取的字符”。此问题似乎与上下文大小增大有关，尤其是在长时间编码会话期间。错误被怀疑是由4位量化或KV缓存量化方法引起的。
TOOL · CL_52383 · May 26 · 12:44

Together AI 开源 OSCAR 以实现高效 LLM 服务

Together AI 已开源 OSCAR，这是一个用于 2 位 KV 缓存量化的新系统。该技术旨在提高大型语言模型（尤其是具有长上下文窗口的模型）的服务效率。此项开发紧随 turboquant 等量化方法的最新进展，表明 LLM 优化正在快速发展。

WitCert系统提供实时KV缓存量化风险监控

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

NVFP4 量化有望提升 32GB VRAM 系统的 LLM 性能

Gemma 4 模型部署与量化性能探索

本地LLM用户报告大上下文导致JSON错误

Together AI 开源 OSCAR 以实现高效 LLM 服务