研究人员开发了SMART,一个系统感知框架,旨在优化大型语言模型(LLM)中推测解码的效率。该方法解决了可能导致在更大批量大小或达到硬件限制时加速效果降低的计算开销问题。SMART将树扩展重新构建为硬件感知的优化问题,通过在推理时应用边际效益成本规则来最大化端到端加速。评估表明,SMART在各种硬件配置下,始终优于现有方法,为多模态和大型语言模型提供显著的额外加速,同时不损害性能。 AI
影响 该框架可能导致在生产环境中更高效、更快速地部署大型语言模型。
排序理由 该集群包含一篇详细介绍LLM推理优化新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →