PulseAugur
实时 21:38:39
English(EN) I built a PyTorch MoE/MoD training framework with custom CUDA kernels [Apache 2.0]

开源框架加速 LLM 训练,支持 MoE/MoD

一位开发者创建了一个开源 PyTorch 框架,专为训练具有混合专家(MoE)和混合深度(MoD)架构的大型语言模型而设计。该框架包含自定义 CUDA 内核,与标准 PyTorch 相比速度显著提升,并提供了一个自适应训练协调器,可自动管理学习率和专家剪枝等参数。它支持从 50 万到 3000 亿参数的模型,并兼容 Apple SiliconAI

影响 该框架可以实现更高效的大型语言模型训练,可能降低开发高级人工智能的门槛。

排序理由 这是一个用于训练 LLM 的框架的开源发布,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/RefrigeratorCalm9701 ·

    我构建了一个带有自定义 CUDA 内核的 PyTorch MoE/MoD 训练框架 [Apache 2.0]

    <!-- SC_OFF --><div class="md"><p>PyTorch framework for training transformer LLMs with MoE and MoD architecture support, custom CUDA kernels, and DeepSpeed integration.</p> <p>Key things it does:</p> <p>- Custom CUDA kernels for RMSNorm, RoPE, SwiGLU, MoE routing. 2 to 7x faster …