PulseAugur
实时 16:46:38

新的RaBitQCache框架加速了长上下文LLM推理

研究人员开发了RaBitQCache,一个旨在加速长上下文大语言模型(LLM)推理的新框架。该方法通过采用随机旋转二值化和高效的二值-INT4算术来估计注意力权重,解决了键值(KV)缓存造成的瓶颈。该系统使用无偏代理分数进行自适应检索,根据注意力稀疏性动态调整令牌预算,并包含硬件感知的异步流水线和延迟更新优化。评估表明,RaBitQCache在保持生成质量的同时,显著提高了推理速度并减少了内存I/O。 AI

影响 该框架可能显著降低运行大语言模型的计算成本和延迟,从而实现长上下文应用的更广泛采用。

排序理由 该集群描述了arXiv论文中提出的一种新的技术框架,用于提高LLM推理效率。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的RaBitQCache框架加速了长上下文LLM推理

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Wenhao Li, Jinhao Dong, Hailin Zhang, Wenhang Shi, Wei Lu, Xiaoyong Du ·

    RaBitQCache: Rotated Binary Quantization for KVCache in Long Context LLM Inference

    arXiv:2606.31519v1 Announce Type: cross Abstract: Long-context Large Language Model inference is severely bottlenecked by the massive Key-Value (KV) cache, yet existing sparse attention methods often suffer from static fixed-budget (Top-k) retrieval or rely on proxy scores that a…

  2. arXiv cs.CL TIER_1 English(EN) · Xiaoyong Du ·

    RaBitQCache: Rotated Binary Quantization for KVCache in Long Context LLM Inference

    Long-context Large Language Model inference is severely bottlenecked by the massive Key-Value (KV) cache, yet existing sparse attention methods often suffer from static fixed-budget (Top-k) retrieval or rely on proxy scores that are computationally expensive and biased. To addres…