PulseAugur
实时 04:09:30
实体 SwiGLU

SwiGLU

PulseAugur coverage of SwiGLU — every cluster mentioning SwiGLU across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
4
90 天内 4
发布 · 30天
0
90 天内 0
论文 · 30天
4
90 天内 4
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条
  1. TOOL · CL_26875 ·

    Transformer大语言模型架构趋向标准化栈

    对2017年至2025年间53个大语言模型的最新分析显示,Transformer架构正显著趋同。这一事实上的标准包括预归一化 (RMSNorm)、旋转位置嵌入 (RoPE)、MLP中的SwiGLU激活函数以及共享键值注意力机制 (MQA/GQA)。这种趋同归因于优化稳定性提高、每FLOP质量提升以及内核可用性和KV缓存经济性等实际考量。

  2. RESEARCH · CL_09211 ·

    IBM releases Granite 4.1 LLMs with 512K context and Apache 2.0 license

    IBM has released the Granite 4.1 family of large language models, comprising 3B, 8B, and 30B parameter versions. These models were trained on approximately 15 trillion tokens through a five-stage pre-training process th…

  3. RESEARCH · CL_06782 ·

    MLP 跳跃连接无法被吸收进无残差模型

    研究人员调查了一个单隐藏层 MLP 周围的跳跃连接是否可以被吸收进一个相同宽度的无残差 MLP。他们发现,对于 ReLU^2 和 ReGLU 等某些激活函数,由于次数参数的原因,吸收是不可能的。对于 SwiGLU 和 GeGLU 等门控激活函数,线性化参数也得出了相同的结论。虽然在特定的、非通用的权重条件下,吸收对于无门控的 ReLU 和 GELU 是可能的,但跳跃连接和无残差的 MLP 通常代表不同的函数类别。

  4. RESEARCH · CL_06664 ·

    研究:移除 LLM 中的 LayerNorm 可作为隐式正则化器,其影响取决于训练数据大小。

    研究人员调查了从神经网络架构中移除层归一化(LayerNorm)的影响,特别是在 GPT-2 和 Llama 等模型中。他们的发现表明,用学习到的激活边界机制动态双曲正切(DyT)替换 LayerNorm,可以作为一种依赖于训练阶段的隐式正则化器。这意味着 DyT 可以在某些训练阶段(例如,较小的数据集)提高性能,但在其他阶段(例如,较大的数据集或增加模型容量)会降低性能。该研究表明,激活饱和是 DyT 性能的关键因素,其饱和水平因模…