English(EN) TACO: Efficient Communication Compression of Intermediate Tensors for Scalable Tensor-Parallel LLM Training

TACO框架通过张量压缩将大模型训练吞吐量提升1.87倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员推出了一种新颖的框架TACO，旨在提高大规模张量并行大语言模型（LLM）训练的效率。TACO采用基于FP8的中间张量压缩策略来解决通信开销问题，利用数据驱动的重塑和自适应Scale-Hadamard变换进行高保真量化。该框架还包含一个融合压缩算子，以减少内存流量和内核启动时间，从而更好地与通信重叠。使用GPT和Qwen模型进行的实验表明，TACO可以在几乎不损失准确性的情况下，将端到端吞吐量提高高达1.87倍。 AI

影响 TACO的效率提升有望加速大规模LLM的训练，从而可能降低计算成本并实现更快的迭代周期。

排序理由这是一篇详细介绍大模型训练效率新方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Man Liu, Xingchen Liu, Xingjian Tian, Bing Lu, Shengkay Lyu, Shengquan Yin, Wenjing Huang, Zheng Wei, Hairui Zhao, Guangming Tan, Dingwen Tao · 2026-04-28 04:00

TACO：可扩展张量并行LLM训练的高效中间张量通信压缩

arXiv:2604.24088v1 Announce Type: cross Abstract: Handling communication overhead in large-scale tensor-parallel training remains a critical challenge due to the dense, near-zero distributions of intermediate tensors, which exacerbate errors under frequent communication and intro…

报道来源 [1]

TACO：可扩展张量并行LLM训练的高效中间张量通信压缩

相关实体

相关话题