GQA · PulseAugur

现代 LLM Transformer 块通过 RMSNorm、GQA 和 MoE 演进

大型语言模型 (LLM) 中的现代 Transformer 块已超越最初的 2017 年设计，以提高训练稳定性、上下文长度、推理效率和模型容量。关键的进步包括使用 RMSNorm 进行更简单、更稳定的归一化，使用分组查询注意力 (GQA) 和旋转位置嵌入 (RoPE) 来优化注意力机制，以及在前馈网络中使用 SwiGLU 或专家混合 (MoE) 来增强表达能力和容量。这些修改解决了关键的扩展挑战，使大规模 LLM 的开发和部署更加实用。

RESEARCH · CL_115129 · Jun 29 · 01:00

开源AI中Transformer注意力机制的演进

自诞生以来，Transformer架构的注意力机制经历了显著的演进，众多创新为更高效、更强大的大型语言模型做出了贡献。FlashAttention、多查询注意力（MQA）、分组查询注意力（GQA）和滑动窗口注意力（SWA）等创新极大地降低了内存需求并提高了推理性能。最新的进展，包括门控Delta网络（GDNs）等线性注意力变体和原生稀疏注意力（DSA）等稀疏注意力方法，正在进一步拓展边界，许多开源模型都采用了这些技术。

TOOL · CL_115074 · Jun 28 · 23:06

KV Cache 内存解析：估算和减少 LLM 中的 VRAM 使用量

KV Cache 是 LLM 推理的关键组成部分，会消耗大量 VRAM，尤其是在更长的上下文长度或更大的批处理大小时，其占用内存常常超过模型权重所需的内存。一个简单的公式可以估算 KV Cache 内存：2 × layers × hidden_dim × context_length × bytes_per_param。例如，Llama 3.1 70B 在 128K 上下文下，其 KV Cache 需要 340GB。像多查询注意力（M…

RESEARCH · CL_111257 · Jun 25 · 06:56

PersistentKV通过新的调度技术优化商品GPU上的LLM服务

一篇新论文介绍PersistentKV，一个旨在优化长上下文大语言模型（LLM）在商品GPU上服务的系统。PersistentKV采用页感知解码调度和原生块表注意力引擎来减少KV缓存碎片并提高吞吐量。与FlashInfer等现有方法相比，该系统在某些工作负载上展示了高达1.4倍的性能提升，并将工作分配确定为LLM服务效率的关键因素。

TOOL · CL_105112 · Jun 22 · 16:47

Kamera方法通过位置不变KV缓存增强多模态AI效率

研究人员开发了一种名为Kamera的新方法，解决了多模态AI代理重复编码来自重复视频帧或UI屏幕截图的信息的效率低下问题。该技术引入了一个无训练的、低秩的条件化patch，以及无位置的块，从而恢复了在朴素KV缓存重用过程中丢失的跨块绑定。通过实现精确的RoPE重新旋转和patch恢复，Kamera显著降低了重新排序、滑动窗口生存和召回等操作的重新计算成本，同时保持了任务准确性并最小化了KV占用空间。

RESEARCH · CL_105983 · Jun 18 · 00:00

分组查询专家通过选择性激活查询头来增强 Transformer 的效率

研究人员引入了分组查询专家 (GQE)，这是一种新颖的专家混合层，旨在提高 Transformer 模型（尤其是在长上下文长度下）的效率。GQE 在分组查询注意力 (GQA) 的基础上，为每个 token 选择性地激活查询头专家，而不是统一应用所有头。这种方法在保持 GQA 的 KV 缓存优势的同时，显著减少了激活查询头的计算量。在实验中，GQE 在 300 亿 token 的预算和 2.5 亿参数规模下，实现了与标准 GQA 基线相…

TOOL · CL_95483 · Jun 17 · 00:02

xFormers 库可在 GPU 上实现内存高效的 Transformer 模型

本教程演示了如何使用 xFormers 库在 GPU 上构建内存高效的 Transformer 模型。它涵盖了实现和比较内存高效注意力与标准注意力，分析了因果掩码、打包序列、分组查询注意力 (GQA) 和 ALiBi 位置偏差等技术。该指南还展示了如何将这些方法结合到一个可训练的 GPT 风格模型中，该模型利用 xFormers 注意力和 SwiGLU 前馈层进行自动混合精度训练。

RESEARCH · CL_82210 · Jun 9 · 00:00

Kwai发布Keye-VL-2.0用于长视频理解

Kwai发布了Keye-VL-2.0-30B-A3B，这是一个开源的多模态基础模型，专为长视频理解和智能体智能而设计。该模型利用DeepSeek稀疏注意力处理高达256K的上下文，捕捉长达一小时视频中的关键帧和时间依赖性。它还结合了跨模态多教师策略内蒸馏，以增强各种场景下的多任务对齐和智能体协作。评估显示在视频理解和时间定位基准测试中取得了最先进的性能。

TOOL · CL_56286 · May 28 · 04:00

新的GQLA注意力机制优化LLM以适应不同硬件

研究人员开发了Group-Query Latent Attention (GQLA)，这是一种新颖的注意力机制，旨在优化大型语言模型在不同硬件上的解码。GQLA提供两条代数上等价的解码路径，均来自一组训练好的权重：一条MQA-absorb路径适用于H100等高带宽硬件，另一条GQA路径适用于H20等商品GPU。这种适应性无需定制内核或重新训练即可实现高效推理，并支持张量并行。TransGQLA扩展允许将现有的GQA检查点转换为GQLA…

TOOL · CL_43642 · May 22 · 07:39

OpenMythos 教程展示用于更深层计算的循环 Transformer

OpenMythos 框架能够构建先进的循环深度 Transformer 模型，并通过使用 Google Colab 的教程进行了演示。该教程展示了如何构建和比较多潜在注意力（MLA）和分组查询注意力（GQA）模型变体，并分析它们的参数数量和循环注入矩阵的稳定性。该过程涉及设置一个合成组合推理任务，模型在该任务中学习预测固定值的模数和，说明了循环如何通过参数重用来促进更深层的计算。

TOOL · CL_26875 · May 11 · 16:20

Transformer大语言模型架构趋向标准化栈

对2017年至2025年间53个大语言模型的最新分析显示，Transformer架构正显著趋同。这一事实上的标准包括预归一化 (RMSNorm)、旋转位置嵌入 (RoPE)、MLP中的SwiGLU激活函数以及共享键值注意力机制 (MQA/GQA)。这种趋同归因于优化稳定性提高、每FLOP质量提升以及内核可用性和KV缓存经济性等实际考量。

RESEARCH · CL_09211 · Apr 29 · 15:01

IBM 发布 Granite 4.1 LLMs，支持 512K 上下文并采用 Apache 2.0 许可

IBM 发布了 Granite 4.1 系列大型语言模型，包含 3B、8B 和 30B 参数版本。这些模型通过包含将上下文窗口扩展到 512K 标记的五阶段预训练过程，在约 15 万亿个标记上进行了训练。进一步的优化包括在精选数据上进行监督微调和强化学习。值得注意的是，8B 指令模型取得了与更大的 Granite 4.0 MoE 模型相当的性能，并且所有 Granite 4.1 模型均根据 Apache 2.0 许可提供。

RESEARCH · CL_08619 · Apr 29 · 04:00

BLASST 论文介绍动态稀疏注意力以加速 LLM 推理

研究人员开发了 BLASST，一种新颖的稀疏注意力机制，旨在加速具有长上下文的大型语言模型的推理。这种即插即用的解决方案通过简单的 Softmax 阈值动态跳过注意力块，无需训练或预计算。BLASST 在保持基准准确性的同时，为各种注意力变体的预填充和解码操作提供了显著的加速。

RESEARCH · CL_06270 · Apr 27 · 12:59

Kwai Summary Attention 压缩历史上下文以实现高效长上下文 LLM

研究人员推出了一种新颖的注意力机制 Kwai Summary Attention (KSA)，旨在解决大型语言模型中标准 softmax 注意力的二次时间复杂度问题。KSA 旨在通过将历史上下文压缩成可学习的摘要 token 来维持 KV 缓存与序列长度之间的线性关系。这种方法试图在内存成本与有效保留长距离依赖性之间取得平衡，为现有方法（如减少 KV 缓存或使用对 KV 缓存友好的架构）提供了替代方案。

RESEARCH · CL_04553 · Apr 27 · 00:29

DeepSeek在A100上对MLA与GQA进行基准测试，揭示带宽-质量权衡

一篇技术分析探讨了DeepSeek在其模型中选择使用MLA（多头线性注意力）而非GQA（分组查询注意力）的原因。作者强调，这一选择是在计算带宽和输出质量之间进行的战略性权衡。文章展示了在NVIDIA A100 GPU上进行的基准测试，以说明这一架构决策对性能的影响。

RESEARCH · CL_03769 · Apr 26 · 04:31

DeepSeek-V4、LoRA 及其他 LLM 技术在新博客中详述

Outcome School 上线了一系列六篇博客文章，详细介绍了当代大型语言模型的基本组成部分。这些文章涵盖了 RMSNorm、DeepSeek-V4、LoRA、RoPE、GQA 和交叉熵损失等技术概念。这些解释旨在解读支撑现代人工智能系统的核心构建模块。