English(EN) The Model Parking Tax: Quantifying the Hidden Energy Cost of Always-On GPU Model Deployment

空闲GPU功耗由CUDA上下文驱动，而非VRAM

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员量化了将AI模型加载到GPU上的能源成本，这种做法被称为“模型停放”。他们的研究发现，主要的能源消耗来自CUDA上下文，无论GPU架构或内存类型如何，都会增加26-66W的空闲功耗。分配给模型的VRAM量对这种空闲功耗几乎没有影响。研究结果表明，节能部署策略应侧重于最小化冷启动延迟，而不是仅仅让模型一直处于加载状态。 AI

影响识别出AI推理中一个显著但之前未量化的能源成本，提出了新的部署优化策略。

排序理由学术论文，详细介绍了GPU能耗的实证研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Sai Sathvik Vadari · 2026-05-26 04:00

模型停车税：量化GPU模型部署始终在线的隐藏能源成本

arXiv:2605.23918v1 Announce Type: cross Abstract: The AI inference industry keeps models loaded in GPU memory around the clock to avoid cold-start latency, implicitly treating idle power as a fixed cost of readiness. Yet the structure of this cost has never been empirically decom…

报道来源 [1]

模型停车税：量化GPU模型部署始终在线的隐藏能源成本

相关实体

相关话题