实体
KV cache quantization
KV cache quantization
PulseAugur coverage of KV cache quantization — every cluster mentioning KV cache quantization across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
本地LLM用户报告大上下文导致JSON错误
r/LocalLLaMA subreddit上的用户遇到了JSON解析错误,具体表现为“解析值时出现语法错误 - 无效字符串:缺少结束引号;最后读取的字符”。此问题似乎与上下文大小增大有关,尤其是在长时间编码会话期间。错误被怀疑是由4位量化或KV缓存量化方法引起的。
-
Together AI 开源 OSCAR 以实现高效 LLM 服务
Together AI 已开源 OSCAR,这是一个用于 2 位 KV 缓存量化的新系统。该技术旨在提高大型语言模型(尤其是具有长上下文窗口的模型)的服务效率。此项开发紧随 turboquant 等量化方法的最新进展,表明 LLM 优化正在快速发展。