PulseAugur
实时 12:19:34
实体 Hope-attention

Hope-attention

PulseAugur coverage of Hope-attention — every cluster mentioning Hope-attention across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_105018 ·

    Tapered Language Models 通过重新分配参数来提高性能

    研究人员推出了一种名为 Tapered Language Models (TLMs) 的架构创新,该创新重新分配了模型层之间的参数。TLMs 不采用均匀分布,而是为早期层分配更多容量,为后期层分配更少容量,这已被证明可以提高困惑度(perplexity)和下游性能。这种方法应用于 Transformers 和 Gated Attention 等各种架构中的 MLPs,在不增加参数数量或计算成本的情况下实现了这些收益。