新的分层全局注意力方法赋能长上下文Transformer

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

研究人员开发了一种名为分层全局注意力（HGA）的新方法，该方法可以在不进行重新训练或校准的情况下替代长上下文Transformer中的密集因果注意力。HGA采用两级分层路由系统，首先使用摘要识别相关的文本块，然后在此基础上进行精确的token级注意力计算。这种方法通过将大部分token的K/V数据保留在主机RAM或NVMe存储中，仅将一小部分工作集传输到GPU内存，从而使模型能够处理显著更长的上下文，例如64K tokens。实验表明，HGA在仅3%稀疏度的情况下，注意力质量与密集注意力相差仅0.01-0.02 nats，表明近似误差很小，质量差距可能归因于位置编码。 AI

影响使Transformer能够以最小的质量下降处理显著更长的上下文，有可能提高需要大量历史数据的任务的性能。

排序理由详细介绍Transformer模型新技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Woernle Frank, Fedosov Vladimir, Grinenko Artemiy · 2026-07-01 04:00

Hierarchical Global Attention (HGA)

arXiv:2606.30709v1 Announce Type: cross Abstract: Hierarchical Global Attention (HGA) is a drop-in replacement for dense causal attention in pretrained long-context transformers. HGA preserves the original checkpoint parameters: the pretrained $W_Q$, $W_K$, $W_V$, and $W_O$ proje…

报道来源 [1]

Hierarchical Global Attention (HGA)

相关实体

相关话题