PulseAugur
实时 09:35:27
English(EN) Graph Memory Transformer (GMT)

图记忆Transformer用学习到的记忆图替换FFN,以提高可解释性

研究人员开发了一种图记忆Transformer (GMT),它用显式的学习记忆图替换了仅解码器语言模型中的标准前馈网络 (FFN) 子层。这种新架构 GMT v7 在其 16 个 Transformer 块中的每一个块内使用了 128 个质心和一个有向转移矩阵。虽然参数量为 8220 万的 GMT 模型在零样本基准测试性能上与更大的 GPT 风格基线相当,但在验证损失和困惑度方面落后,这表明未来有优化的潜力和扩展性。 AI

影响 探索了密集 FFN 的替代方案,可能提供更具可解释性和更高效的 Transformer 架构。

排序理由 介绍新颖 Transformer 架构变体的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

图记忆Transformer用学习到的记忆图替换FFN,以提高可解释性

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Nicola Zanarini, Niccol\`o Ferrari ·

    Graph Memory Transformer (GMT)

    arXiv:2604.23862v1 Announce Type: cross Abstract: We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory graph while preserving the surrounding autoregressive architecture. The proposed Graph Memo…

  2. arXiv cs.CL TIER_1 English(EN) · Niccolò Ferrari ·

    Graph Memory Transformer (GMT)

    We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory graph while preserving the surrounding autoregressive architecture. The proposed Graph Memory Transformer (GMT) keeps causal self-attention i…