PulseAugur
实时 22:43:35

Together AI发布FlashAttention-3和-4,加速大语言模型处理

Together AI发布了FlashAttention-3和FlashAttention-4,这是其用于大语言模型的GPU加速注意力机制的重大升级。FlashAttention-3专为Hopper GPU设计,通过利用张量核心(Tensor Cores)和张量内存加速器(Tensor Memory Accelerator)等新硬件特性并支持FP8精度,实现了高达75%的利用率和比前代产品快1.5-2倍的速度。FlashAttention-4则针对Blackwell GPU进行了优化,通过流水线计算和解决超越函数及内存流量瓶颈,进一步提升了性能,达到了71%的利用率,并提供了比现有库显著的速度提升。 AI

影响 这些优化的注意力机制有望显著加快大语言模型的训练和推理速度,从而实现更长的上下文窗口和更高效的GPU利用率。

排序理由 该集群描述了用于优化特定GPU架构上注意力机制的新算法技术和软件发布(FlashAttention-3和-4),详细介绍了性能改进和硬件特性利用情况。

在 Together AI blog 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Together AI发布FlashAttention-3和-4,加速大语言模型处理

报道来源 [2]

  1. Together AI blog TIER_1 English(EN) ·

    FlashAttention

    FlashAttention-3 achieves up to 75% GPU utilization on H100s, making AI models up to 2x faster and enabling efficient processing of longer text inputs. It allows for faster training and inference of LLMs, supports lower precision operations for improved efficiency.

  2. Together AI blog TIER_1 English(EN) ·

    FlashAttention

    As GPU throughput outpaces memory bandwidth, kernels must evolve. We introduce FlashAttention-4, featuring new pipelining for maximum overlap, 2-CTA MMA modes to reduce shared memory traffic, and a hardware-software hybrid approach to softmax exponentials.