实体 Grouped Query Attention

Grouped Query Attention

PulseAugur coverage of Grouped Query Attention — every cluster mentioning Grouped Query Attention across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 12

发布 · 30天

90 天内 0

论文 · 30天

90 天内 7

层级分布 · 90 天

research 4
tool 7
commentary 1

主题

关系

情绪 · 30 天

6 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

TOOL · CL_129412 · Jul 7 · 04:00

新型轻量级Transformer实现遥感图像变化字幕的实时生成

研究人员开发了LBTCap，一个专为实时遥感图像变化字幕生成设计的新框架。该系统利用一种轻量级的双边Transformer架构，能够高效处理成对遥感图像的预变化和后变化特征。关键创新包括一种新颖的双边注意力机制和分组查询注意力，使得该模型相比现有最先进方法拥有显著更少的参数和更高的推理速度，适用于城市规划和灾害响应等领域的实际实时应用。
TOOL · CL_117822 · Jun 30 · 04:00

新论文发现稀疏性机制可改善LLM深度利用

一篇新的arXiv论文研究了稀疏性如何缓解大型语言模型（LLMs）中“深度的诅咒”。研究人员发现，隐式稀疏性（来自权重衰减等训练条件）和显式稀疏性（来自分组查询注意力或混合专家等架构选择）都有助于减少方差传播。这能更好地利用更深的层，并在下游任务上带来显著的4.6准确率提升，表明稀疏性是LLM有效深度扩展的关键因素。该研究提供了一个训练深度有效模型的实用方法，并附带GitHub上的代码。
RESEARCH · CL_115129 · Jun 29 · 01:00

开源AI中Transformer注意力机制的演进

自诞生以来，Transformer架构的注意力机制经历了显著的演进，众多创新为更高效、更强大的大型语言模型做出了贡献。FlashAttention、多查询注意力（MQA）、分组查询注意力（GQA）和滑动窗口注意力（SWA）等创新极大地降低了内存需求并提高了推理性能。最新的进展，包括门控Delta网络（GDNs）等线性注意力变体和原生稀疏注意力（DSA）等稀疏注意力方法，正在进一步拓展边界，许多开源模型都采用了这些技术。
TOOL · CL_115074 · Jun 28 · 23:06

KV Cache 内存解析：估算和减少 LLM 中的 VRAM 使用量

KV Cache 是 LLM 推理的关键组成部分，会消耗大量 VRAM，尤其是在更长的上下文长度或更大的批处理大小时，其占用内存常常超过模型权重所需的内存。一个简单的公式可以估算 KV Cache 内存：2 × layers × hidden_dim × context_length × bytes_per_param。例如，Llama 3.1 70B 在 128K 上下文下，其 KV Cache 需要 340GB。像多查询注意力（M…
RESEARCH · CL_105983 · Jun 18 · 00:00

分组查询专家通过选择性激活查询头来增强 Transformer 的效率

研究人员引入了分组查询专家 (GQE)，这是一种新颖的专家混合层，旨在提高 Transformer 模型（尤其是在长上下文长度下）的效率。GQE 在分组查询注意力 (GQA) 的基础上，为每个 token 选择性地激活查询头专家，而不是统一应用所有头。这种方法在保持 GQA 的 KV 缓存优势的同时，显著减少了激活查询头的计算量。在实验中，GQE 在 300 亿 token 的预算和 2.5 亿参数规模下，实现了与标准 GQA 基线相…
TOOL · CL_89886 · Jun 14 · 03:00

LLM架构通过KV Sharing、Compressed Attention实现长上下文创新

大型语言模型（LLM）架构的最新进展正专注于提高长上下文窗口的效率，解决KV缓存大小和内存带宽等资源限制。例如，Gemma 4采用跨层的KV共享来减小缓存大小，而Laguna XS.2则采用层级特定的注意力预算来更有效地分配计算资源。ZAYA1-8B引入了压缩卷积注意力，以减小缓存大小和注意力FLOPs，DeepSeek V4则结合了改进的超连接（mHC）和压缩注意力机制（CSA/HCA），以实现更稳定高效的长上下文处理。
RESEARCH · CL_70263 · Jun 4 · 04:00

Transformer 研究发现 QKV 投影共享可大幅减少内存使用

研究人员调查了 Transformer 模型中三个独立投影（查询、键和值）的必要性。他们的研究发现，共享投影，特别是 Q-K=V 变体，可以在对性能影响极小的情况下显著减少 KV 缓存内存使用。这种方法，特别是与分组查询注意力结合使用时，可提供可观的内存节省，可能支持更高效的设备端推理。
TOOL · CL_60653 · May 30 · 05:13

LLaMA-2 70B 内存算术详解

本文深入探讨了 LLaMA-2 70B 的内存算术，具体详细介绍了其拥有 64 个查询头和 8 个 KV 头的架构。旨在提供对分组查询注意力（Grouped Query Attention）标准解释中常被忽视的计算方面的更深层次理解。
TOOL · CL_57927 · May 28 · 21:25

开源大模型演进：注意力机制、多模态和效率提升

近几个月来，开源大模型领域发生了重大变化，滑动窗口注意力机制已成为主流，支持更大的上下文窗口。QK-Norm 也因其作为训练稳定器的作用而受到关注，其根源可追溯至 Gemini 3 的架构。Kimi k2.5 中早期出现的多模态预训练，已被证明有利于推理，而 Z.ai 的 GLM-5，尽管经过修改，但性能可与顶级闭源模型相媲美。Step 3.5 Flash 在推理速度和多令牌预测方面表现突出，尽管基准测试性能并不总是与用户偏好一致。
RESEARCH · CL_45905 · May 23 · 13:14

新的MLA注意力机制将LLM KV缓存削减高达10倍

多头潜在注意力（MLA）是一种新颖的注意力机制，旨在显著压缩大型语言模型的KV缓存。通过将KV对投影到低维潜在空间，MLA实现了大量的缓存缩减，使DeepSeek-V2/V3和Kimi K2.x等模型能够以更少的内存处理更长的上下文和更大的批次。该技术改变了前缀缓存和注意力计算的实现方式，在模型推理过程中提供了内存使用和计算成本之间更有效的权衡。
COMMENTARY · CL_37910 · May 19 · 01:12

LLM速度基准测试被批评误导实际性能

最近的一项分析认为，常见的LLM速度基准测试具有误导性，因为它们未能考虑到诸如负载大小、输出格式和解码约束等关键因素。这些基准测试通常只提供一个速度指标，并不能反映实际生产工作负载，因为实际工作负载在token数量和格式要求方面可能存在显著差异。作者强调，不同的模型架构针对不同的用例进行了优化，例如短输出延迟与长输出吞吐量，因此一刀切的基准测试对于为特定应用程序选择最佳模型是不准确的。
RESEARCH · CL_24900 · May 10 · 08:43

LLM KV缓存详解：速度与内存的权衡

大型语言模型利用KV缓存来加速推理，通过存储先前计算出的键（key）和值（value）向量，而不是为每个新令牌重新计算它们。该技术在初始、计算密集型的“预填充”（prefill）阶段（缓存构建时）之后，显著加快了令牌生成速度。然而，KV缓存以增加内存使用量为代价来减少计算量，缓存大小随上下文长度线性增长，并且在大规模部署时可能超过模型权重。

新型轻量级Transformer实现遥感图像变化字幕的实时生成

新论文发现稀疏性机制可改善LLM深度利用

开源AI中Transformer注意力机制的演进

KV Cache 内存解析：估算和减少 LLM 中的 VRAM 使用量

分组查询专家通过选择性激活查询头来增强 Transformer 的效率

LLM架构通过KV Sharing、Compressed Attention实现长上下文创新

Transformer 研究发现 QKV 投影共享可大幅减少内存使用

LLaMA-2 70B 内存算术详解

开源大模型演进：注意力机制、多模态和效率提升

新的MLA注意力机制将LLM KV缓存削减高达10倍

LLM速度基准测试被批评误导实际性能

LLM KV缓存详解：速度与内存的权衡