PulseAugur
实时 22:10:25

新的内存分页技术提高了混合式大语言模型推理效率

研究人员开发了一种名为非对称虚拟内存分页(AVMP)的新内存管理技术,以提高混合式语言模型的效率。这些模型结合了Transformer层和状态空间模型(SSM),导致存在当前系统处理不佳的独特内存缓存类型。AVMP将这些缓存类型分离到不同的池中,并在需要时允许它们之间的容量迁移,从而减少内存不足事件并显著提高请求吞吐量。 AI

影响 提高了混合式大语言模型的推理效率,可能导致更快速、更具成本效益的高级模型部署。

排序理由 该集群包含一篇学术论文,详细介绍了提高大语言模型推理性能的新技术方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · An Xuan Nguyen ·

    Asymmetric Virtual Memory Paging for Hybrid Mamba-Transformer Inference

    arXiv:2605.22416v1 Announce Type: new Abstract: Hybrid language models like Jamba mix attention layers with State Space Models (SSMs), creating two memory cache types with opposite profiles: Key-Value (KV) caches grow linearly with sequence length, while SSM states stay fixed per…