研究人员开发了QCFuse,一种优化检索增强生成(RAG)服务效率的新颖方法。该技术通过智能重用预计算的KV缓存来解决LLM处理检索到的上下文的高成本问题。QCFuse采用一种压缩视图的查询感知选择器,该选择器将用户查询状态条件化在紧凑的每块锚点上,并识别重计算令牌,而无需进行全层检查,从而达到完整的预填充级别质量。 AI
影响 QCFuse 显著提高了RAG服务的速度,有望降低LLM应用的推理成本并提高吞吐量。
排序理由 该集群包含一篇详细介绍LLM服务优化新方法的 ist 研究论文。
在 Hugging Face Daily Papers 阅读 →
- Large language model (LLM)
- ProphetKV
- QCFuse
- Retrieval-Augmented Generation
- SGLang
- Large Language Models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →