English(EN) ML Inference Scheduling with Predictable Latency

新研究解决了具有可预测延迟的机器学习推理调度问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇新的研究论文探讨了调度机器学习推理请求以优化GPU利用率同时保持可预测延迟的挑战。作者指出了现有干扰预测方法的局限性，指出粗粒度方法和静态模型分别难以应对运行时共置动态和工作负载变化。该论文旨在评估这些局限性，并提出改进建议，以提高机器学习推理服务系统中干扰预测的准确性。 AI

影响解决了优化面向延迟敏感应用的机器学习推理服务的核心挑战。

排序理由该集群包含一篇在arXiv上发表的研究论文，详细介绍了机器学习推理调度的技术发现。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Haidong Zhao, Nikolaos Georgantas · 2026-06-16 04:00

ML Inference Scheduling with Predictable Latency

arXiv:2512.18725v3 Announce Type: replace Abstract: Machine learning (ML) inference serving systems can schedule requests to improve GPU utilization and to meet service level objectives (SLOs) or deadlines. However, improving GPU utilization may compromise latency-sensitive sched…