PulseAugur
实时 02:31:08
English(EN) The Model Parking Tax: Quantifying the Hidden Energy Cost of Always-On GPU Model Deployment

空闲GPU功耗由CUDA上下文驱动,而非VRAM

研究人员量化了将AI模型加载到GPU上的能源成本,这种做法被称为“模型停放”。他们的研究发现,主要的能源消耗来自CUDA上下文,无论GPU架构或内存类型如何,都会增加26-66W的空闲功耗。分配给模型的VRAM量对这种空闲功耗几乎没有影响。研究结果表明,节能部署策略应侧重于最小化冷启动延迟,而不是仅仅让模型一直处于加载状态。 AI

影响 识别出AI推理中一个显著但之前未量化的能源成本,提出了新的部署优化策略。

排序理由 学术论文,详细介绍了GPU能耗的实证研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Sai Sathvik Vadari ·

    模型停车税:量化GPU模型部署始终在线的隐藏能源成本

    arXiv:2605.23918v1 Announce Type: cross Abstract: The AI inference industry keeps models loaded in GPU memory around the clock to avoid cold-start latency, implicitly treating idle power as a fixed cost of readiness. Yet the structure of this cost has never been empirically decom…