PulseAugur
实时 11:20:23

AutoMegaKernel 将 Llama 模型编译为单个 CUDA 核函数

研究人员开发了 AutoMegaKernel (AMK) 系统,该系统将 HuggingFace Llama 系列模型编译成单个、持久的 CUDA 核函数,以实现高效的前向传播。AMK 的静态验证器可确保调度安全,防止死锁和竞用条件。该系统支持从单一代码库支持多种 NVIDIA GPU 架构,并已展示出自我改进能力。 AI

影响 该系统通过将模型执行整合到单个 CUDA 核函数中,有望提高推理效率。

排序理由 该集群包含一篇详细介绍用于编译 AI 模型的新系统的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Jaber Jaber, Osama Jaber ·

    AutoMegaKernel:一个静态检查的Agent框架,用于自重定向Megakernel合成

    arXiv:2606.09682v1 Announce Type: new Abstract: AutoMegaKernel (AMK) compiles a HuggingFace Llama-family model into a single persistent cooperative CUDA kernel that runs the whole forward pass in one launch, with no per-model hand-written CUDA. The contribution is the system, not…

  2. arXiv cs.LG TIER_1 English(EN) · Osama Jaber ·

    AutoMegaKernel:一个静态检查的代理框架,用于自重定向的Megakernel合成

    AutoMegaKernel (AMK) compiles a HuggingFace Llama-family model into a single persistent cooperative CUDA kernel that runs the whole forward pass in one launch, with no per-model hand-written CUDA. The contribution is the system, not raw speed. A frozen schedule-IR validator stati…