PulseAugur
实时 12:19:39
实体 Attention Sink

Attention Sink

PulseAugur coverage of Attention Sink — every cluster mentioning Attention Sink across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_15969 ·

    Attention Sink research reveals inherent MoE structure in LLM attention layers

    Researchers have identified that the attention sink phenomenon in Large Language Models, where the first token receives disproportionate attention, naturally forms a Mixture-of-Experts (MoE) mechanism within attention l…

  2. RESEARCH · CL_05188 ·

    超越注意力投影的线性:非线性查询的论证

    研究人员正在探索 Transformer 注意力机制背后的基本原理,新论文分析了其梯度流结构和动态。一项研究将注意力解释为单位球面上的梯度流,识别影响多头设置中 token 聚类和稳定性的因素。另一篇论文研究了用于复杂性控制的关键训练窗口,确定 Transformer 何时优先考虑推理而非记忆。此外,研究还揭示了深度神经网络中几何连续性的起源,将其归因于残差连接和对称性破坏的非线性,并考察了“注意力汇聚”现象的结构原因。