English(EN) I built a PyTorch MoE/MoD training framework with custom CUDA kernels [Apache 2.0]

开源框架加速 LLM 训练，支持 MoE/MoD

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-07 20:17

一位开发者创建了一个开源 PyTorch 框架，专为训练具有混合专家（MoE）和混合深度（MoD）架构的大型语言模型而设计。该框架包含自定义 CUDA 内核，与标准 PyTorch 相比速度显著提升，并提供了一个自适应训练协调器，可自动管理学习率和专家剪枝等参数。它支持从 50 万到 3000 亿参数的模型，并兼容 Apple Silicon。 AI

影响该框架可以实现更高效的大型语言模型训练，可能降低开发高级人工智能的门槛。

排序理由这是一个用于训练 LLM 的框架的开源发布，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/RefrigeratorCalm9701 · 2026-06-07 20:17

我构建了一个带有自定义 CUDA 内核的 PyTorch MoE/MoD 训练框架 [Apache 2.0]

<div class="md">PyTorch framework for training transformer LLMs with MoE and MoD architecture support, custom CUDA kernels, and DeepSpeed integration. Key things it does: - Custom CUDA kernels for RMSNorm, RoPE, SwiGLU, MoE routing. 2 to 7x faster …

报道来源 [1]

我构建了一个带有自定义 CUDA 内核的 PyTorch MoE/MoD 训练框架 [Apache 2.0]

相关实体

相关话题