研究人员开发了 HARD-KV,一个旨在优化长上下文大型语言模型 (LLM) 推理的新框架。该系统解决了头自适应压缩算法(通过动态内存预算提供准确性)与需要静态内存模式以提高效率的现代推理引擎(如 vLLM)之间的冲突。HARD-KV 引入了级联缓存 (Cascade Cache) 层级结构和逻辑校准 (Logits Calibration) 机制,以统一重要性指标并为不同模型头实现一致的预算分配。实验表明,HARD-KV 在保持超过 10,000 个 token 的上下文的高保真生成能力的同时,吞吐量可提高两倍。 AI
影响 提高了 LLM 推理效率,可能支持更快、更强大的长上下文应用。
排序理由 详细介绍 LLM 推理优化新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Cascade Cache
- CUDA Graphs
- HARD-KV
- Hugging Face
- Logits Calibration
- PagedAttention
- U Mathur-Wagh
- vLLM
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →