PulseAugur
实时 03:32:59
实体 Normalized gradient descent

Normalized gradient descent

PulseAugur coverage of Normalized gradient descent — every cluster mentioning Normalized gradient descent across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_20487 ·

    新研究解释了Transformer如何通过梯度下降进行上下文内学习

    两篇新的arXiv论文探讨了Transformer中上下文内学习(ICL)的理论基础。一篇论文展示了Transformer如何通过在每一层内隐式执行归一化梯度下降步骤来执行上下文内逻辑回归。另一篇论文研究了非线性回归,展示了注意力机制如何构建特征,使Transformer能够在不更新权重的情况下从示例中学习。