PulseAugur
实时 21:57:27
实体 Zizhuo Fu

Zizhuo Fu

PulseAugur coverage of Zizhuo Fu — every cluster mentioning Zizhuo Fu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15969 ·

    Attention Sink 研究揭示了 LLM 注意力层中固有的 MoE 结构

    研究人员发现,大型语言模型中的注意力汇聚现象(即第一个 token 获得不成比例的注意力)会在注意力层内自然形成一个专家混合(MoE)机制。这一发现有助于解释仅部分注意力头被利用的“头坍塌”问题。为解决此问题,研究者提出了一种新的、具有辅助负载均衡损失的 Sink-Aware 训练算法,该算法在不同注意力机制上均显示出改进的性能和有效的头负载均衡。