一个名为 VoltanaLLM 的新系统已被开发出来,以解决大型语言模型 (LLM) 推理的巨大能耗问题。该系统在最近的一篇 arXiv 论文中进行了详细介绍,采用了自适应频率控制和状态空间路由来降低 LLM 服务预填充和解码阶段的能耗。通过识别 GPU 频率的最佳工作点并智能路由请求,VoltanaLLM 可以在不影响延迟服务水平目标 (SLO) 的情况下实现显著的节能。 AI
影响 有潜力显著降低大规模部署 LLM 的运营成本和环境影响。
排序理由 详细介绍 LLM 服务效率新系统的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →