研究人员开发了 DriftSched,一个旨在提高大型语言模型多租户 GPU 推理效率的框架。该系统通过使用自适应偏差校正将估计误差减少 40% 以上,解决了运行时令牌漂移(实际输出长度偏离初始估计)的挑战。实验表明,最短作业优先 (SJF) 调度策略与 DriftSched 结合使用可显著降低延迟,中位数端到端延迟下降约 42%。该框架还包括一个用于运行时反馈驱动漂移补偿的机制,以及一个用于评估共享 GPU 基础设施上 QoS 感知调度的基准测试套件。 AI
影响 优化 LLM 推理的 GPU 资源利用率,可能降低成本并提高服务响应能力。
排序理由 该集群包含一篇详细介绍 LLM 推理调度新框架的研究论文。
- CPU
- cuda_sched_trace
- eBPF
- GPU
- Linux
- Meta
- Qwen3 0.6B
- sched_ext
- stress-ng
- DriftSched
- FIFO
- Kathiravan Palaniappan
- LLM
- NVIDIA L4 GPUs
- QoS
- Qwen 3 0.6B
- vLLM
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →