PulseAugur
实时 04:56:18
实体 clustering heads

clustering heads

PulseAugur coverage of clustering heads — every cluster mentioning clustering heads across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_117401 ·

    通过机制分析研究Transformer训练动力学 · 跟踪1个来源

    研究人员对Transformer的训练动力学进行了机制研究,重点关注大规模预训练。他们使用稀疏模块加法任务,证明了在梯度下降过程中可以出现专门的注意力电路(称为聚类头)来解决该问题。该研究观察到两阶段学习过程,并确定了由归一化层的高曲率引起的损失尖峰,为大型语言模型预训练提供了可应用的见解。