实体 Hope-attention

Hope-attention

PulseAugur coverage of Hope-attention — every cluster mentioning Hope-attention across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_105018 · Jun 22 · 00:00

Tapered Language Models 通过重新分配参数来提高性能

研究人员推出了一种名为 Tapered Language Models (TLMs) 的架构创新，该创新重新分配了模型层之间的参数。TLMs 不采用均匀分布，而是为早期层分配更多容量，为后期层分配更少容量，这已被证明可以提高困惑度（perplexity）和下游性能。这种方法应用于 Transformers 和 Gated Attention 等各种架构中的 MLPs，在不增加参数数量或计算成本的情况下实现了这些收益。