English(EN) Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

新的SPES框架可在更少的GPU上实现内存高效的去中心化LLM预训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了一种新颖的去中心化框架SPES，用于预训练大型语言模型，特别是混合专家（MoE）架构。该方法通过在每个节点上仅训练一部分专家并有效地在分布式GPU之间同步知识，即使通过互联网连接，也能显著降低内存需求。SPES已通过成功训练高达90亿参数的模型证明了其能力，在相似的计算预算内取得了与中心化训练模型相当的性能。 AI

影响引入了一种内存高效的去中心化训练范式，有望降低开发大型语言模型的硬件门槛。

排序理由学术论文，详细介绍了分布式LLM预训练的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Jinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang · 2026-05-05 04:00

使用分布式GPU预训练大型语言模型：一种内存高效的去中心化范式

arXiv:2602.11543v2 Announce Type: replace Abstract: Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated op…

报道来源 [1]

使用分布式GPU预训练大型语言模型：一种内存高效的去中心化范式

相关实体

相关话题