实体 eOptShrinkQ

eOptShrinkQ

PulseAugur coverage of eOptShrinkQ — every cluster mentioning eOptShrinkQ across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_15547 · May 4 · 06:17

HeadQ: 模型可见失真与分数空间校正用于KV缓存量化

研究人员正在开发几种新颖的方法来优化大型语言模型中的键值（KV）缓存，这是长上下文处理的主要瓶颈。这些方法包括训练模型内在生成可压缩表示（KV-CAT）、操纵潜在注意力空间以实现高效引导（Memory Inception）以及采用先进的量化技术，如int4和谱去噪（eOptShrinkQ、HeadQ）。此外，用于多模态模型的WindowQuant和用于分布式KV缓存管理的tierKV等新策略旨在减少延迟和内存使用，其中tierKV甚至…