PulseAugur
实时 18:13:18

Hugging Face 推出 Graph Memory Transformer,用学习到的内存图替换 FFN

研究人员开发了一种图内存 Transformer (GMT),它用显式的学习内存图替换了仅解码器 Transformer 中的标准前馈网络 (FFN) 子层。这种新架构保持了因果自注意力,但使用内存单元通过由有向转移矩阵连接的质心库来路由 token 表示。虽然具有 8220 万个参数的 GMT 模型训练稳定并提供可检查的组件,但它在验证损失和困惑度方面目前表现不如密集 GPT 风格的基线,尽管它在零样本基准测试中的行为相当。 AI

影响 引入了一种新颖的 Transformer 架构,可能提供更强的可解释性和不同的扩展特性。

排序理由 该集群描述了一篇介绍新颖 Transformer 架构的研究论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Hugging Face 推出 Graph Memory Transformer,用学习到的内存图替换 FFN

报道来源 [1]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    Graph Memory Transformer (GMT)

    We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory graph while preserving the surrounding autoregressive architecture. The proposed Graph Memory Transformer (GMT) keeps causal self-attention i…