UnfoldML 推出了 RadixAttention,这是一种新的 KV 缓存策略,旨在优化 LLM 推理的预填充阶段。该方法利用基数树数据结构来高效地存储和共享多个并发推理请求之间的共同前缀,从而减少内存使用和计算量。该系统专为用户在本地硬件上部署 LLM 推理而设计,优先考虑数据隐私并适应不同的硬件能力。 AI
影响 RadixAttention 高效的 KV 缓存可以降低本地部署的 LLM 的推理成本并提高性能。
排序理由 该集群描述了一种优化 LLM 推理的新颖技术方法,包括基准测试结果,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →