English(EN) Inside the Together AI kernels team

Together AI 内核团队使用 FlashAttention 优化 GPU

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-01 00:00

Together AI 内核团队，包括研究员 Dan Fu 和 Tri Dao，开发了 FlashAttention，这是一个显著优化 AI 模型 GPU 性能的软件层。这项突破通过将数据库系统原理应用于 GPU 内存移动，实现了 2-3 倍的速度提升，挑战了 transformer attention 已经完全优化的观念。该团队后续的工作，包括 ThunderKittens 库，旨在加速 NVIDIA Blackwell GPU 等新硬件的内核开发，解决了 AI 基础设施中关键的软硬件差距。 AI

影响通过弥合软硬件差距来优化 AI 推理和训练，可能降低成本并提高响应速度。

排序理由文章详细介绍了 FlashAttention 的开发和影响，这是 GPU 上 AI 工作负载的一项重要软件优化，并讨论了持续的内核研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 Together AI blog 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Together AI 内核团队使用 FlashAttention 优化 GPU

报道来源 [1]

Together AI blog TIER_1 English(EN) · 2026-04-01 00:00

Together AI 内核团队的内部故事

The team behind FlashAttention and ThunderKittens — how Together AI's kernel researchers close the gap between GPU hardware and production AI.

报道来源 [1]

Together AI 内核团队的内部故事

相关实体

相关话题