English(EN) Efficient Pre-Training with Token Superposition

新的 Token Superposition 方法将 LLM 预训练时间缩短 2.5 倍

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-07 16:41

研究人员开发了一种名为 Token-Superposition Training (TST) 的新预训练方法，旨在提高大型语言模型训练的效率。TST 包括一个两阶段过程：初始的叠加阶段，其中 token 与多热交叉熵目标相结合进行训练，然后是标准训练的恢复阶段。对高达 100 亿参数模型的评估表明，在同等损失条件下，TST 可将预训练时间缩短高达 2.5 倍。 AI

影响该方法可以显著降低训练大型语言模型所需的计算成本和时间，从而可能加速研究和开发。

排序理由该集群包含一篇详细介绍大型语言模型新预训练方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

新的 Token Superposition 方法将 LLM 预训练时间缩短 2.5 倍

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Bowen Peng, Th\'eo Gigant, Jeffrey Quesnelle · 2026-05-08 04:00

Token Superposition 实现高效预训练

arXiv:2605.06546v1 Announce Type: new Abstract: Pre-training of Large Language Models is often prohibitively expensive and inefficient at scale, requiring complex and invasive modifications in order to achieve high data throughput. In this work, we present Token-Superposition Tra…
arXiv cs.CL TIER_1 English(EN) · Jeffrey Quesnelle · 2026-05-07 16:41

Token Superposition 实现高效预训练

Pre-training of Large Language Models is often prohibitively expensive and inefficient at scale, requiring complex and invasive modifications in order to achieve high data throughput. In this work, we present Token-Superposition Training (TST), a simple drop-in method that signif…

报道来源 [2]

Token Superposition 实现高效预训练

Token Superposition 实现高效预训练

相关实体

相关话题