PulseAugur
实时 10:36:29
实体 WAV v1

WAV v1

PulseAugur coverage of WAV v1 — every cluster mentioning WAV v1 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_77255 ·

    WAV v1 通过多分辨率残差路由增强Transformer训练

    研究人员推出了一种新颖的方法WAV v1,用于改进深度仅解码器Transformer的训练。该技术通过引入多分辨率细节基来增强残差路由,这些细节基捕获了关于注意力(attention)和MLP更新的方向信息,以及早期与晚期子层动力学。WAV v1在TinyStories和Text8等语言建模任务中表现出显著优势,尤其是在24层和48层等更深的层级中,以最小的参数开销超越了现有方法。