研究人员开发了RaBitQCache,一个旨在加速长上下文大语言模型(LLM)推理的新框架。该方法通过采用随机旋转二值化和高效的二值-INT4算术来估计注意力权重,解决了键值(KV)缓存造成的瓶颈。该系统使用无偏代理分数进行自适应检索,根据注意力稀疏性动态调整令牌预算,并包含硬件感知的异步流水线和延迟更新优化。评估表明,RaBitQCache在保持生成质量的同时,显著提高了推理速度并减少了内存I/O。 AI
影响 该框架可能显著降低运行大语言模型的计算成本和延迟,从而实现长上下文应用的更广泛采用。
排序理由 该集群描述了arXiv论文中提出的一种新的技术框架,用于提高LLM推理效率。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →