实体 KV caches

KV caches

PulseAugur coverage of KV caches — every cluster mentioning KV caches across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_126863 · Jul 6 · 00:07

Llama-server 错误丢弃 KV 缓存，修复恢复快速状态恢复

llama-server 中的一个错误导致它丢弃了恢复的 KV 缓存，强制进行完全的重新预填充，并显著增加了处理时间。该问题源于服务器的状态保存机制，该机制序列化了 token 数据，但没有序列化高效回滚所需的检查点元数据。成功的修复方法是将此检查点元数据持久化到侧边栏文件中，从而实现更快的状态恢复，并避免冗长的提示重新计算。
TOOL · CL_119710 · Jul 1 · 04:00

InfoFlow KV 改进了长上下文的检索增强生成

研究人员开发了 InfoFlow KV，一种用于改进大型语言模型中检索增强生成（RAG）的新颖方法。该技术通过选择性地重计算 KV 缓存来解决推理过程中预填充大型检索上下文的瓶颈问题。InfoFlow KV 将选择性重计算建模为一个信息流问题，在一致的 RoPE 几何结构下使用注意力范数信号来识别语义相关和结构上有影响力的 token。实验表明，在 LLM 和视觉语言模型基准测试中取得了持续的性能提升。
RESEARCH · CL_05362 · Apr 27 · 09:34

TurboQuant 将 AI 向量压缩至 2-4 比特，准确率无损

一种名为 TurboQuant 的新方法已被开发出来，用于将 AI 向量（如 KV 缓存和注意力键中的向量）压缩至每数字低至 2-4 比特，而不会牺牲准确性。该技术依赖于这样一个原理：随机旋转可以将输入向量转换为一个坐标遵循可预测模式的分布。通过为该分布使用预先设计的码本，TurboQuant 可以有效地压缩来自各种输入的向量。