研究人员开发了一种图记忆Transformer (GMT),它用显式的学习记忆图替换了仅解码器语言模型中的标准前馈网络 (FFN) 子层。这种新架构 GMT v7 在其 16 个 Transformer 块中的每一个块内使用了 128 个质心和一个有向转移矩阵。虽然参数量为 8220 万的 GMT 模型在零样本基准测试性能上与更大的 GPT 风格基线相当,但在验证损失和困惑度方面落后,这表明未来有优化的潜力和扩展性。 AI
影响 探索了密集 FFN 的替代方案,可能提供更具可解释性和更高效的 Transformer 架构。
排序理由 介绍新颖 Transformer 架构变体的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →