研究人员开发了Nightjar,一个旨在通过动态自适应推测解码来优化大型语言模型(LLM)服务的创新框架。该方法解决了推测解码固有的权衡问题,在计算密集型环境中可能导致性能下降。Nightjar根据工作负载动态调整推测长度,并在推测不再有利时主动禁用推测,将草稿模型卸载到CPU,从而释放GPU内存以支持更大的批处理大小。实验表明,Nightjar可以显著提高实时LLM服务场景下的吞吐量并降低延迟。 AI
影响 通过动态调整推测解码策略以适应工作负载需求,优化LLM服务效率。
排序理由 该集群包含一篇详细介绍LLM服务新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →