PulseAugur
实时 11:11:12
实体 GPT-style baseline

GPT-style baseline

PulseAugur coverage of GPT-style baseline — every cluster mentioning GPT-style baseline across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06296 ·

    图记忆Transformer用学习到的记忆图替换FFN,以提高可解释性

    研究人员开发了一种图记忆Transformer (GMT),它用显式的学习记忆图替换了仅解码器语言模型中的标准前馈网络 (FFN) 子层。这种新架构 GMT v7 在其 16 个 Transformer 块中的每一个块内使用了 128 个质心和一个有向转移矩阵。虽然参数量为 8220 万的 GMT 模型在零样本基准测试性能上与更大的 GPT 风格基线相当,但在验证损失和困惑度方面落后,这表明未来有优化的潜力和扩展性。