PulseAugur
实时 08:52:46
English(EN) Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference

新的 TSP 策略折叠张量和序列并行以实现内存高效训练

研究人员引入了一种名为张量和序列并行 (TSP) 的新并行执行策略,旨在提高 Transformer 模型训练和推理过程中的内存效率。TSP 将分片模型权重的张量并行与分片 token 的序列并行结合到单个设备轴上。这种方法减少了参数和激活内存,为在内存受限的环境中或具有长上下文的场景下训练大型模型提供了一种硬件感知的替代方案。 AI

影响 引入了一种新颖的并行策略,可以实现更内存高效的大型 Transformer 模型训练。

排序理由 该集群包含一篇详细介绍训练 AI 模型新技术的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的 TSP 策略折叠张量和序列并行以实现内存高效训练

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Vasu Shyam, Anna Golubeva, Quentin Anthony ·

    Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference

    arXiv:2604.26294v1 Announce Type: new Abstract: We present tensor and sequence parallelism (TSP), a parallel execution strategy that folds tensor parallelism and sequence parallelism onto a single device axis. In conventional multi-dimensional parallelism layouts, tensor parallel…

  2. arXiv cs.CL TIER_1 English(EN) · Quentin Anthony ·

    Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference

    We present tensor and sequence parallelism (TSP), a parallel execution strategy that folds tensor parallelism and sequence parallelism onto a single device axis. In conventional multi-dimensional parallelism layouts, tensor parallelism (TP) shards model weights while sequence par…