研究人员开发了一种新的几何感知在线调度算法,称为最小体积优先(SVF)及其高效变体1位SVF,以优化大型语言模型(LLM)服务。该方法通过考虑LLM推理动态的二维时空几何增长,解决了传统以时间为中心的调度启发式方法的局限性。理论分析表明SVF提高了竞争比,并将其集成到vLLM与Llama-3.1模型中的实际应用证明了延迟的显著降低和竞争性吞吐量的提升。 AI
影响 这种新的调度方法可以显著提高大型语言模型的服务效率并降低成本。
排序理由 详细介绍新算法及其理论和实践评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- 1-bit SVF
- Key-value cache based IFC model implementation for web environments
- large language model
- Llama~3.1
- Smallest Volume First
- SoftBank Vision Fund
- vLLM
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →