Flashattention · PulseAugur

FlashAttention 理论详解：关联运算的代数基础

一个教程系列正在发布，旨在解释 FlashAttention 的理论基础。第一部分深入探讨了代数基础，展示了 FlashAttention 如何被视为一种关联运算。这种视角允许应用标准的 GPU 归约优化，提供了一个比以往更强大的框架。

新的 RotateAttention 框架加速了 AI 视频生成

研究人员开发了 RotateAttention，一个新颖的混合精度 INT4 FlashAttention 框架，旨在加速使用 3D 旋转位置嵌入 (3D RoPE) 的基于 DiT 的视频生成模型。该框架解决了在线旋转矩阵与 RoPE 协调的挑战，并优化了注意力矩阵 P 的量化。实验表明，RotateAttention 在保持与全精度模型相当的视频生成质量的同时，实现了显著的加速。

RESEARCH · CL_128529 · Jul 5 · 13:39

HiFA4在Ascend NPU上实现LLM推理的4位FlashAttention

研究人员开发了HiFA4，一种在Ascend HIF4 NPU上以4位执行FlashAttention操作的新型训练后设计，旨在提高LLM推理效率。该方法结合了两种关键机制：用于重新缩放注意力权重的Smooth-QK和用于累积softmax归一化器的P-Reordering。在包括Qwen3-8B和Gemma2-9B在内的五个LLM上的评估表明，HiFA4显著降低了量化引起的准确性回归和决策漂移，并在MMLU得分方面取得了显著改进。

TOOL · CL_118049 · Jun 30 · 04:00

SAFE-DiT 框架加速高分辨率扩散 Transformer 图像生成

研究人员开发了 SAFE-DiT，一个旨在加速使用扩散 Transformer 的高分辨率图像生成的新框架。该方法解决了“掩码诱导调度税”（MIDT），这是一个系统瓶颈，通过将区域计算编码为注意力掩码来减慢推理速度。SAFE-DiT 将掩码消除与空间调度分开，从而实现更快的处理和更少的内存使用，尤其是在非常高的分辨率下。

TOOL · CL_117601 · Jun 30 · 04:00

新型BERTomelo模型增强葡萄牙语NLP任务

研究人员开发了BERTomelo，这是一种专为葡萄牙语设计的新型单语编码器模型。该模型采用ModernBERT架构，并集成了FlashAttention等优化技术，与之前的葡萄牙语编码器（如BERTimbau和Albertina）相比，实现了更高的效率和可扩展性。BERTomelo在广泛的ClassiCC-PT语料库上进行训练，在命名实体识别和语义文本相似性等下游任务中表现出色，优于旧的单语模型和大型多语言模型。

TOOL · CL_115914 · Jun 29 · 08:24

PyTorch 维护者称赞 DeepSeek 的 DSpark 推理系统

DeepSeek 的 DSpark 推理系统获得了 PyTorch 核心维护者 Dmytro Dzhulgakov 的高度技术性赞扬。Dzhulgakov 的详细分析强调了该系统创新的半并行草稿方法及其稳健、生产级的工程设计。该系统在 NVIDIA 硬件上利用 CUDA 和 Flashattention 的性能进一步凸显了其效率。

RESEARCH · CL_115129 · Jun 29 · 01:00

开源AI中Transformer注意力机制的演进

自诞生以来，Transformer架构的注意力机制经历了显著的演进，众多创新为更高效、更强大的大型语言模型做出了贡献。FlashAttention、多查询注意力（MQA）、分组查询注意力（GQA）和滑动窗口注意力（SWA）等创新极大地降低了内存需求并提高了推理性能。最新的进展，包括门控Delta网络（GDNs）等线性注意力变体和原生稀疏注意力（DSA）等稀疏注意力方法，正在进一步拓展边界，许多开源模型都采用了这些技术。

RESEARCH · CL_115713 · Jun 25 · 16:16

新的注意力机制提升LLM效率并减少幻觉 · 跟踪10个来源

研究人员正在开发新颖的注意力机制，以提高大型语言模型（LLM）和多模态大型语言模型（MLLM）的效率和能力。这些进展侧重于优化长上下文的稀疏注意力，降低计算成本，并减轻幻觉和视觉基础薄弱等问题。Flash Sparse Attention (FSA)、Information-Regularized Attention (IRA) 和 Multipole Semantic Attention (MuSe) 等技术旨在提高性能、降低延迟，…

RESEARCH · CL_108502 · Jun 24 · 10:18

新的 EpiKV 方法优化 LLM KV 缓存，提高效率和上下文长度

一篇新研究论文介绍了一种名为 EpiKV 的方法，用于优化大型语言模型中的 KV 缓存淘汰。与依赖注意力权重的先前方法不同，EpiKV 使用源自模型内部表征变化的“顿悟分数”。这种方法避免了计算注意力矩阵的需要，能够实现融合内核集成，并显著提高上下文长度的处理能力。实验表明，EpiKV 在 MATH-500 和 AIME-2024 等基准测试中表现与基线相当或更优，同时提供了显著的速度提升。

RESEARCH · CL_112712 · Jun 23 · 11:38

新书详解用于 AI 工作负载的现代 GPU 编程

一本名为《现代 GPU 编程用于 MLSys》的新书旨在揭开机器学习系统高性能 GPU 内核开发的神秘面纱。该书源自卡内基梅隆大学的机器学习系统课程系列，提供了理解 GPU 硬件和构建优化内核的分步指南。它利用 TIRx Python DSL 进行实际示例，重点关注 NVIDIA 的 Blackwell 架构以及 GEMM 和 FlashAttention 等核心组件。

TOOL · CL_101987 · Jun 20 · 19:05

免费15部分系列文章用Gemma 4 12B解释LLM内部原理

一个15部分的系列文章深入探讨了大型语言模型（LLM）的内部工作原理，并以Gemma 4 12B为例。该系列涵盖了从分词、张量形状到推理、内存限制以及LoRA和QLoRA等微调技术的主题。它还探讨了量化方法、CUDA核函数、FlashAttention和推测解码，提供了详细的数学解释和硬件考量。

SIGNIFICANT · CL_101878 · Jun 20 · 16:56

Subquadratic 发布 SubQ LLM，实现单次代码库处理

Subquadratic Inc. 发布了 SubQ，这是一款新推出的长上下文语言模型，声称能够一次性处理整个代码库或文档集。该模型采用了亚二次方稀疏注意力设计，理论上允许计算量与上下文长度呈线性扩展，而非二次方。虽然供应商发布的基准测试在长上下文检索方面显示出有希望的结果，但据报道，与前沿模型相比，其编码能力一般。该模型目前处于私有测试阶段，可通过与 OpenAI 兼容的 REST API 访问，标称上限为 1200 万个 toke…

TOOL · CL_91640 · Jun 15 · 09:16

Flash-KMeans 加速 GPU k-means 聚类超 200 倍

来自加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员开发了 Flash-KMeans，这是一个开源库，可显著加速现代 AI 管道中的 k-means 聚类算法。通过优化 GPU 上的数据移动和重构算法的阶段，Flash-KMeans 实现了显著的加速，据报道在 NVIDIA H200 GPU 上比 FAISS 快 200 多倍，比 NVIDIA cuML 快 33 倍。该库在数学上与标准 k-means 保持一致，侧重于 IO 效…

TOOL · CL_79834 · Jun 9 · 04:00

数学框架大幅减少Transformer内存使用，提升速度

研究人员开发了一个名为Mathematics of Arrays (MoA)的新框架，用于优化Transformer内核，这是现代AI模型中计算密集型的组成部分。该框架使用代数构造消除了中间数组，与标准实现相比，显著减少了内存流量和能耗。MoA方法有望实现显著的速度提升和能耗降低，并可能应用于DARPA和DOE的倡议。

TOOL · CL_62826 · Jun 1 · 04:00

新的偏置方法使超分辨率Transformer能够更快、更具扩展性

研究人员开发了一种名为秩分解隐式神经偏置（RIB）的新方法，以提高超分辨率Transformer的效率。该技术允许这些模型利用像FlashAttention这样的硬件加速内核，而这之前受到相对位置偏置的依赖的阻碍。通过用低秩神经表示来近似位置偏置，RIB能够显著加快训练和推理速度，从而允许更大的窗口大小和块大小，最终在图像超分辨率等任务上获得更好的性能。

RESEARCH · CL_55666 · May 27 · 00:00

OSP-Next视频模型以效率提升实现83.73% VBench分数

研究人员推出了一种新颖的文本到视频生成模型OSP-Next，旨在提高效率和质量。该模型集成了稀疏注意力机制、一种将通信量比现有方法减少75%的新型稀疏序列并行（SSP）技术，以及用于稳定8位训练的HiF8量化。实验表明，OSP-Next的VBench得分为83.73%，优于Wan2.1基线，并在包括NVIDIA H200和Ascend 950PR GPU在内的各种硬件平台上实现了显著的速度提升。

RESEARCH · CL_48931 · May 22 · 15:23

新技术将大型语言模型注意力机制的 I/O 成本大幅降低

研究人员开发了一种新技术，可以显著降低大型语言模型中注意力机制的 I/O 复杂性。该方法旨在最大限度地减少快速内存和慢速内存之间的数据传输，这是这些模型效率的关键因素。新方法实现了相对于输入规模的近线性 I/O 成本，相比现有的二次方成本有了实质性改进，并且受到了近期近似注意力框架的启发。

RESEARCH · CL_35013 · May 16 · 22:23

Nous Research 的 Lighthouse Attention 加速了 LLM 预训练

Nous Research 的研究人员开发了 Lighthouse Attention，这是一种新颖的层级注意力机制，旨在加速长上下文大语言模型的预训练。该方法通过在多层金字塔中对称地汇集查询（queries）、键（keys）和值（values），与标准的 FlashAttention 相比，实现了 1.4 倍至 1.7 倍的速度提升。Lighthouse Attention 将选择逻辑置于注意力核（attention kernel）…

RESEARCH · CL_44749 · May 16 · 00:00

新研究解决了 Transformer 中注意力机制的局限性

研究人员正在探索新颖的方法来提高 Transformer 中注意力机制的效率和有效性。几篇论文介绍了缓解过平滑和计算瓶颈问题的方法，特别是在图 Transformer 和大型语言模型中。技术包括容量控制的注意力门控、分析注意力汇聚点以区分自适应无操作和广播机制，以及为超长上下文开发稀疏注意力策略。这些进展旨在提高模型在各种基准上的性能，同时降低计算成本。

RESEARCH · CL_36554 · May 15 · 06:56

新研究解决扩散语言模型的局限性

研究人员正在探索改进扩散语言模型（DLM）的新方法，与自回归模型相比，DLM 提供了更快的推理速度。几篇近期论文介绍了增强 DLM 性能的技术，包括用于解耦重掩码的 NAVIRA、用于使用丢弃标记进行检索增强生成的 SARDI，以及用于支持标记揭示的 AXON。另一项研究确定了 DLM 的局限性，例如局部性偏差和来自掩码标记的干扰，并提出了一种无掩码的损失函数来改善上下文理解。此外，一项调查全面概述了 DLM 的格局，涵盖了基本原理、…