PulseAugur
实时 15:03:39
实体 > <former

> <former

PulseAugur coverage of >

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
时间线
  1. 2026-06-16 research_milestone A new transformer architecture with variable width allocation was proposed, demonstrating improved efficiency and performance. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_95768 ·

    可变宽度Transformer在语言模型中提供更高的效率

    研究人员提出了一种新颖的Transformer架构,称为“> <former”或“x形”架构,它偏离了所有层之间标准的统一宽度。这种新设计为早期和晚期层分配了更宽的容量,同时缩小了中间层,并使用无参数的残差重缩放机制。实证结果表明,这种不均匀的宽度分配在语言模型中带来了更高的性能和更大的资源效率,并减少了FLOPs和KV缓存内存。