PulseAugur
实时 16:13:52
Deutsch(DE) DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference

DriftSched 通过自适应调度提高 LLM 推理效率

研究人员开发了 DriftSched,一个旨在提高大型语言模型多租户 GPU 推理效率的框架。该系统通过使用自适应偏差校正将估计误差减少 40% 以上,解决了运行时令牌漂移(实际输出长度偏离初始估计)的挑战。实验表明,最短作业优先 (SJF) 调度策略与 DriftSched 结合使用可显著降低延迟,中位数端到端延迟下降约 42%。该框架还包括一个用于运行时反馈驱动漂移补偿的机制,以及一个用于评估共享 GPU 基础设施上 QoS 感知调度的基准测试套件。 AI

影响 优化 LLM 推理的 GPU 资源利用率,可能降低成本并提高服务响应能力。

排序理由 该集群包含一篇详细介绍 LLM 推理调度新框架的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 Deutsch(DE) · Kathiravan Palaniappan ·

    DriftSched:多租户GPU推理运行时令牌漂移下的自适应QoS感知调度

    arXiv:2606.02982v1 Announce Type: cross Abstract: The rapid growth of large language model (LLM) inference services has increased the demand for efficient multi-tenant GPU scheduling. While modern inference runtimes such as vLLM improve throughput through continuous batching and …

  2. dev.to — LLM tag TIER_1 English(EN) · 云微 ·

    当CPU噪音拖慢GPU推理速度:使用eBPF测量调度器和IRQ的影响

    <p>GPU inference often looks like a GPU problem, but the CPU still sits on the critical path. It prepares inputs, launches CUDA kernels, manages synchronization, handles runtime calls, and shares cores with system work, interrupts, and other tenants. If that CPU-side launch path …