研究人员开发了 AutoMegaKernel (AMK) 系统,该系统将 HuggingFace Llama 系列模型编译成单个、持久的 CUDA 核函数,以实现高效的前向传播。AMK 的静态验证器可确保调度安全,防止死锁和竞用条件。该系统支持从单一代码库支持多种 NVIDIA GPU 架构,并已展示出自我改进能力。 AI
影响 该系统通过将模型执行整合到单个 CUDA 核函数中,有望提高推理效率。
排序理由 该集群包含一篇详细介绍用于编译 AI 模型的新系统的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →