Hugging Face 推出 Graph Memory Transformer，用学习到的内存图替换 FFN

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-26 20:09

研究人员开发了一种图内存 Transformer (GMT)，它用显式的学习内存图替换了仅解码器 Transformer 中的标准前馈网络 (FFN) 子层。这种新架构保持了因果自注意力，但使用内存单元通过由有向转移矩阵连接的质心库来路由 token 表示。虽然具有 8220 万个参数的 GMT 模型训练稳定并提供可检查的组件，但它在验证损失和困惑度方面目前表现不如密集 GPT 风格的基线，尽管它在零样本基准测试中的行为相当。 AI

影响引入了一种新颖的 Transformer 架构，可能提供更强的可解释性和不同的扩展特性。

排序理由该集群描述了一篇介绍新颖 Transformer 架构的研究论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Hugging Face 推出 Graph Memory Transformer，用学习到的内存图替换 FFN

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-26 20:09

Graph Memory Transformer (GMT)

We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory graph while preserving the surrounding autoregressive architecture. The proposed Graph Memory Transformer (GMT) keeps causal self-attention i…

报道来源 [1]

Graph Memory Transformer (GMT)

相关实体

相关话题