PulseAugur
实时 23:10:25
实体 Gradient Sinks

Gradient Sinks

PulseAugur coverage of Gradient Sinks — every cluster mentioning Gradient Sinks across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14113 ·

    研究人员通过注意力控制和算法捕获探索高效 Transformer

    研究人员正在探索提高 Transformer 效率和理解力的方法。一篇论文引入了预算注意力分配(Budgeted Attention Allocation),这是一种允许成本-质量权衡的头门控机制。另一项研究定义了 Transformer 中的算法捕获(algorithmic capture),并分析了它们的计算复杂性,表明存在一种归纳偏见,反对更高复杂度的过程。此外,关于 Transformer 中局部注意力的工作证明了其表达能力以…