研究人员开发了一种图内存 Transformer (GMT),它用显式的学习内存图替换了仅解码器 Transformer 中的标准前馈网络 (FFN) 子层。这种新架构保持了因果自注意力,但使用内存单元通过由有向转移矩阵连接的质心库来路由 token 表示。虽然具有 8220 万个参数的 GMT 模型训练稳定并提供可检查的组件,但它在验证损失和困惑度方面目前表现不如密集 GPT 风格的基线,尽管它在零样本基准测试中的行为相当。 AI
影响 引入了一种新颖的 Transformer 架构,可能提供更强的可解释性和不同的扩展特性。
排序理由 该集群描述了一篇介绍新颖 Transformer 架构的研究论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →