PulseAugur
实时 14:59:34

新的分层全局注意力方法赋能长上下文Transformer

研究人员开发了一种名为分层全局注意力(HGA)的新方法,该方法可以在不进行重新训练或校准的情况下替代长上下文Transformer中的密集因果注意力。HGA采用两级分层路由系统,首先使用摘要识别相关的文本块,然后在此基础上进行精确的token级注意力计算。这种方法通过将大部分token的K/V数据保留在主机RAM或NVMe存储中,仅将一小部分工作集传输到GPU内存,从而使模型能够处理显著更长的上下文,例如64K tokens。实验表明,HGA在仅3%稀疏度的情况下,注意力质量与密集注意力相差仅0.01-0.02 nats,表明近似误差很小,质量差距可能归因于位置编码。 AI

影响 使Transformer能够以最小的质量下降处理显著更长的上下文,有可能提高需要大量历史数据的任务的性能。

排序理由 详细介绍Transformer模型新技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的分层全局注意力方法赋能长上下文Transformer

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Woernle Frank, Fedosov Vladimir, Grinenko Artemiy ·

    Hierarchical Global Attention (HGA)

    arXiv:2606.30709v1 Announce Type: cross Abstract: Hierarchical Global Attention (HGA) is a drop-in replacement for dense causal attention in pretrained long-context transformers. HGA preserves the original checkpoint parameters: the pretrained $W_Q$, $W_K$, $W_V$, and $W_O$ proje…