研究人员推出了一种新颖的编译器抽象 Event Tensor,旨在统一和优化现代 GPU 工作负载的动态巨型内核。该抽象解决了当前巨型内核技术在处理大型语言模型推理中常见的动态形状和数据依赖计算方面的局限性。Event Tensor Compiler (ETC) 利用此抽象生成高性能的持久内核,显著降低了 LLM 服务延迟和系统预热开销。 AI
影响 通过降低 GPU 上的延迟和预热开销来优化 LLM 推理性能。
排序理由 该集群包含一篇详细介绍 GPU 工作负载新技术抽象和编译器的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Event Tensor
- Event Tensor Compiler
- graphics processing unit
- Hongyi Jin
- Hugging Face
- large language model
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →