English(EN) Graph Memory Transformer (GMT)

图记忆Transformer用学习到的记忆图替换FFN，以提高可解释性

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-26 20:09

研究人员开发了一种图记忆Transformer (GMT)，它用显式的学习记忆图替换了仅解码器语言模型中的标准前馈网络 (FFN) 子层。这种新架构 GMT v7 在其 16 个 Transformer 块中的每一个块内使用了 128 个质心和一个有向转移矩阵。虽然参数量为 8220 万的 GMT 模型在零样本基准测试性能上与更大的 GPT 风格基线相当，但在验证损失和困惑度方面落后，这表明未来有优化的潜力和扩展性。 AI

影响探索了密集 FFN 的替代方案，可能提供更具可解释性和更高效的 Transformer 架构。

排序理由介绍新颖 Transformer 架构变体的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Nicola Zanarini, Niccol\`o Ferrari · 2026-04-28 04:00

Graph Memory Transformer (GMT)

arXiv:2604.23862v1 Announce Type: cross Abstract: We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory graph while preserving the surrounding autoregressive architecture. The proposed Graph Memo…
arXiv cs.CL TIER_1 English(EN) · Niccolò Ferrari · 2026-04-26 20:09

Graph Memory Transformer (GMT)

We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory graph while preserving the surrounding autoregressive architecture. The proposed Graph Memory Transformer (GMT) keeps causal self-attention i…

报道来源 [2]

Graph Memory Transformer (GMT)

Graph Memory Transformer (GMT)

相关实体

相关话题