English(EN) Long-Context Modeling via GSS-Transformer Hybrid Architecture with Learnable Mixing

新型混合架构提升长上下文语言模型效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员引入了一种并行混合架构（PHA），它结合了门控状态空间（GSS）、分组查询注意力（GQA）和前馈网络（FFNs），以改进长上下文语言建模。该架构并行运行这些组件，允许每个组件专注于序列建模的不同方面，这与之前迫使SSM近似注意力或串行化这两种范例的方法不同。PHA在困惑度方面与标准Transformer具有竞争力，同时在吞吐量和内存使用方面提供了显著更高的效率，尤其是在长上下文方面。 AI

影响这种混合架构为更高效的长上下文语言建模提供了一条途径，有可能降低高级NLP任务的计算成本和内存需求。

排序理由该集群包含一篇详细介绍语言建模新颖架构的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Kuzey Torlak, H\"useyin Arda Arslan, An{\i}l Dervi\c{s}o\u{g}lu, Beyza Nur Deniz, Onur Boyar · 2026-06-16 04:00

Long-Context Modeling via GSS-Transformer Hybrid Architecture with Learnable Mixing

arXiv:2606.16093v1 Announce Type: cross Abstract: Modeling long-range dependencies remains a central challenge in natural language processing. Transformer architectures achieve strong performance via self-attention but scale quadratically ($O(N^2)$) with sequence length, while St…

报道来源 [1]

Long-Context Modeling via GSS-Transformer Hybrid Architecture with Learnable Mixing

相关实体

相关话题