English(EN) HARD-KV: Head-Adaptive Regularization for Decoding-time KV Compression

HARD-KV 框架将 LLM 推理速度提升 2 倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了 HARD-KV，一个旨在优化长上下文大型语言模型 (LLM) 推理的新框架。该系统解决了头自适应压缩算法（通过动态内存预算提供准确性）与需要静态内存模式以提高效率的现代推理引擎（如 vLLM）之间的冲突。HARD-KV 引入了级联缓存 (Cascade Cache) 层级结构和逻辑校准 (Logits Calibration) 机制，以统一重要性指标并为不同模型头实现一致的预算分配。实验表明，HARD-KV 在保持超过 10,000 个 token 的上下文的高保真生成能力的同时，吞吐量可提高两倍。 AI

影响提高了 LLM 推理效率，可能支持更快、更强大的长上下文应用。

排序理由详细介绍 LLM 推理优化新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yuxuan Yang, Feiyang Ren, Bowen Zeng, Dalin Zhang, Jinpeng Chen, Gang Chen, Huan Li · 2026-06-30 04:00

HARD-KV：用于解码时KV压缩的头部自适应正则化

arXiv:2606.28831v1 Announce Type: cross Abstract: Long-context LLM inference faces a fundamental conflict: head-adaptive compression algorithms (e.g., Top-$p$ nucleus sampling) offer superior accuracy by dynamically fluctuating memory budgets, yet modern inference engines (e.g., …

报道来源 [1]

HARD-KV：用于解码时KV压缩的头部自适应正则化

相关实体

相关话题