研究人员引入了分组查询专家 (GQE),这是一种新颖的专家混合层,旨在提高 Transformer 模型(尤其是在长上下文长度下)的效率。GQE 在分组查询注意力 (GQA) 的基础上,为每个 token 选择性地激活查询头专家,而不是统一应用所有头。这种方法在保持 GQA 的 KV 缓存优势的同时,显著减少了激活查询头的计算量。在实验中,GQE 在 300 亿 token 的预算和 2.5 亿参数规模下,实现了与标准 GQA 基线相当的下游准确率,但激活的查询头数量减半。 AI
影响 这种方法可能带来更高效的大型语言模型,从而实现更长的上下文窗口和更低的计算成本。
排序理由 该集群包含一篇详细介绍 Transformer 效率新方法的论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →