PulseAugur
实时 15:23:13
实体 NVIDIA B200 GPU

NVIDIA B200 GPU

PulseAugur coverage of NVIDIA B200 GPU — every cluster mentioning NVIDIA B200 GPU across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_31008 ·

    Nous Research 通过 Token Superposition 将 LLM 预训练时间缩短 2.5 倍

    Nous Research 开发了 Token Superposition Training (TST) 方法,旨在显著加速大型语言模型 (LLM) 的预训练。该技术可以将 2.7 亿至 100 亿参数模型的预训练时间缩短高达 2.5 倍,同时不改变模型的架构或推理方式。TST 通过在两个阶段修改训练循环来实现:初始的“叠加”阶段,其中 token 嵌入被平均并在更大的批次中处理;随后是恢复到标准训练的“恢复”阶段。实验表明,与传统方…