Nous Research 开发了 Token Superposition Training (TST) 方法,旨在显著加速大型语言模型 (LLM) 的预训练。该技术可以将 2.7 亿至 100 亿参数模型的预训练时间缩短高达 2.5 倍,同时不改变模型的架构或推理方式。TST 通过在两个阶段修改训练循环来实现:初始的“叠加”阶段,其中 token 嵌入被平均并在更大的批次中处理;随后是恢复到标准训练的“恢复”阶段。实验表明,与传统方法相比,TST 在计算时间大大减少的情况下实现了更低的最终训练损失。 AI
影响 加速 LLM 预训练,可能降低开发新大型语言模型的计算成本和时间。
排序理由 研究论文,详细介绍了一种加速 LLM 预训练的新颖方法。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →