PulseAugur
实时 14:03:17
实体 multi-layer transformers

multi-layer transformers

PulseAugur coverage of multi-layer transformers — every cluster mentioning multi-layer transformers across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_106826 ·

    新框架分析神经网络中梯度下降的收敛性

    研究人员开发了一个新框架来分析神经网络中梯度下降的收敛性,该框架超越了传统的神经切线核(NTK)理论。该框架适用于广泛的架构,包括预归一化的多层Transformer,并证明在温和的假设和特定的初始化下,梯度下降可以收敛到一个稳定点。该分析沿梯度下降轨迹建立了Lipschitz平滑性,并揭示学习率缩放取决于网络深度和瓶颈维度而非宽度,这对残差连接和函数组合具有影响。