PulseAugur
实时 04:42:00
English(EN) HARD-KV: Head-Adaptive Regularization for Decoding-time KV Compression

HARD-KV 框架将 LLM 推理速度提升 2 倍

研究人员开发了 HARD-KV,一个旨在优化长上下文大型语言模型 (LLM) 推理的新框架。该系统解决了头自适应压缩算法(通过动态内存预算提供准确性)与需要静态内存模式以提高效率的现代推理引擎(如 vLLM)之间的冲突。HARD-KV 引入了级联缓存 (Cascade Cache) 层级结构和逻辑校准 (Logits Calibration) 机制,以统一重要性指标并为不同模型头实现一致的预算分配。实验表明,HARD-KV 在保持超过 10,000 个 token 的上下文的高保真生成能力的同时,吞吐量可提高两倍。 AI

影响 提高了 LLM 推理效率,可能支持更快、更强大的长上下文应用。

排序理由 详细介绍 LLM 推理优化新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

HARD-KV 框架将 LLM 推理速度提升 2 倍

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yuxuan Yang, Feiyang Ren, Bowen Zeng, Dalin Zhang, Jinpeng Chen, Gang Chen, Huan Li ·

    HARD-KV:用于解码时KV压缩的头部自适应正则化

    arXiv:2606.28831v1 Announce Type: cross Abstract: Long-context LLM inference faces a fundamental conflict: head-adaptive compression algorithms (e.g., Top-$p$ nucleus sampling) offer superior accuracy by dynamically fluctuating memory budgets, yet modern inference engines (e.g., …