分组查询专家通过选择性激活查询头来增强 Transformer 的效率

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-18 00:00

研究人员引入了分组查询专家 (GQE)，这是一种新颖的专家混合层，旨在提高 Transformer 模型（尤其是在长上下文长度下）的效率。GQE 在分组查询注意力 (GQA) 的基础上，为每个 token 选择性地激活查询头专家，而不是统一应用所有头。这种方法在保持 GQA 的 KV 缓存优势的同时，显著减少了激活查询头的计算量。在实验中，GQE 在 300 亿 token 的预算和 2.5 亿参数规模下，实现了与标准 GQA 基线相当的下游准确率，但激活的查询头数量减半。 AI

影响这种方法可能带来更高效的大型语言模型，从而实现更长的上下文窗口和更低的计算成本。

排序理由该集群包含一篇详细介绍 Transformer 效率新方法的论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Vishesh Tripathi, Abhay Kumar · 2026-06-24 04:00

Grouped Query Experts: GQA自注意力上的混合专家模型

arXiv:2606.20945v2 Announce Type: replace Abstract: Self-attention is central to Transformer performance and is often the most expensive part of the Transformer at long context lengths because its pairwise token interactions scale quadratically with sequence length. Standard dens…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-18 00:00

Grouped Query Experts: GQA自注意力上的混合专家模型

Grouped Query Experts (GQE) improves Transformer efficiency by selectively activating query heads based on token content while maintaining key-value cache benefits of grouped-query attention.

报道来源 [2]

Grouped Query Experts: GQA自注意力上的混合专家模型

Grouped Query Experts: GQA自注意力上的混合专家模型

相关实体

相关话题