研究人员量化了将AI模型加载到GPU上的能源成本,这种做法被称为“模型停放”。他们的研究发现,主要的能源消耗来自CUDA上下文,无论GPU架构或内存类型如何,都会增加26-66W的空闲功耗。分配给模型的VRAM量对这种空闲功耗几乎没有影响。研究结果表明,节能部署策略应侧重于最小化冷启动延迟,而不是仅仅让模型一直处于加载状态。 AI
影响 识别出AI推理中一个显著但之前未量化的能源成本,提出了新的部署优化策略。
排序理由 学术论文,详细介绍了GPU能耗的实证研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →