研究人员开发了ModeSwitch-LLM,这是一种轻量级的控制器,旨在提高单个GPU上大型语言模型推理的效率。该系统根据工作负载特征,动态地将请求路由到各种推理模式,包括量化、推测和混合配置。在Meta-Llama-3.1-8B-Instruct上的评估表明,与标准的FP16相比,延迟速度提高了2.10倍,每token的能耗降低了51.7%,同时保持了近乎等效的准确性。 AI
影响 提高了单GPU上LLM的推理效率,可能降低运营成本并增加可访问性。
排序理由 发表了一篇学术论文,详细介绍了一种提高LLM推理效率的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →