实体 SwiGLU

SwiGLU

PulseAugur coverage of SwiGLU — every cluster mentioning SwiGLU across labs, papers, and developer communities, ranked by signal.

总计 · 30天

11

90 天内 11

发布 · 30天

0

90 天内 0

论文 · 30天

8

90 天内 8

层级分布 · 90 天

research 3
tool 7
commentary 1

主题

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 11 条

TOOL · CL_129216 · Jul 7 · 04:00

新内核通过融合 SwiGLU 激活来提高大语言模型推理速度

研究人员开发了新的技术，通过在瓦片级别将 SwiGLU 激活函数直接融合到 GEMM 操作中，来加速大语言模型 (LLM) 的推理。这些方法使用为 NVIDIA H100 GPU 定制的 CUTLASS 内核实现，显著减少了中间张量物化的相关开销。在 Qwen 2.5 模型上的评估显示，与标准的 PyTorch 实现相比，速度提升高达 2.47 倍，实现了更高的峰值 BF16 利用率，并展示了优于 cuBLAS 等现有库的数值性能。
TOOL · CL_116105 · Jun 29 · 10:42

现代 LLM Transformer 块通过 RMSNorm、GQA 和 MoE 演进

大型语言模型 (LLM) 中的现代 Transformer 块已超越最初的 2017 年设计，以提高训练稳定性、上下文长度、推理效率和模型容量。关键的进步包括使用 RMSNorm 进行更简单、更稳定的归一化，使用分组查询注意力 (GQA) 和旋转位置嵌入 (RoPE) 来优化注意力机制，以及在前馈网络中使用 SwiGLU 或专家混合 (MoE) 来增强表达能力和容量。这些修改解决了关键的扩展挑战，使大规模 LLM 的开发和部署更加实用。
RESEARCH · CL_99805 · Jun 18 · 09:58

新的 QG-MIL 架构提高了医学影像分析的准确性

研究人员开发了 QG-MIL，这是一种新颖的门控 Transformer 聚合器，旨在提高医学影像中多实例学习 (MIL) 的稳定性和准确性。这种新架构通过引入基于 RMSNorm 的预归一化、每头 QK 归一化、细粒度注意力输出门控和 SwiGLU 前馈模块来解决过度自信和不稳定的预测问题。QG-MIL 在病理学和血液学六个基准测试中表现出色，平均比现有方法高出 6.1 个宏平均 F1 分数，并显示出更分布式的实例加权。
TOOL · CL_95483 · Jun 17 · 00:02

xFormers 库可在 GPU 上实现内存高效的 Transformer 模型

本教程演示了如何使用 xFormers 库在 GPU 上构建内存高效的 Transformer 模型。它涵盖了实现和比较内存高效注意力与标准注意力，分析了因果掩码、打包序列、分组查询注意力 (GQA) 和 ALiBi 位置偏差等技术。该指南还展示了如何将这些方法结合到一个可训练的 GPT 风格模型中，该模型利用 xFormers 注意力和 SwiGLU 前馈层进行自动混合精度训练。
RESEARCH · CL_93236 · Jun 16 · 04:00

新的神经网络架构应对复杂的科学计算问题 · 跟踪 8 个来源

研究人员正在开发新颖的神经网络架构来求解复杂的偏微分方程 (PDE) 和建模动力学系统。这包括用于离子传输的面向结构的随机神经网络 (SO-RaNN)，用于具有已知图结构的_时间序列_预测的_信息_神经_控制_微分方程 (INDEQS)，以及用于高保真 PDE 解的_启动器-迭代器_神经算子 (SINO)。此外，还提出了正交正则化 (OrthoReg) 来通过防止组件之间的重叠来改进混合符号-神经模型，而其他工作则探索了现代神经网络架…
COMMENTARY · CL_100429 · Jun 16 · 00:45

AI研究需要纪律、基础知识和初学者心态

成为一名成功的AI研究员需要结合持续的努力和动手实践，这类似于一种冥想练习，即使没有即时的见解，奉献精神也是关键。在快速发展的领域中，专注于基本概念而不是转瞬即逝的趋势对于长期的职业发展至关重要。文章认为，真正的研究深度来自于探索现有基准之外的新颖能力，而在AI这样新兴的领域，初学者心态可能是有优势的。
RESEARCH · CL_53504 · May 26 · 07:30

新的MoA FFN设计增强了LLM的表现力和可扩展性

研究人员为大型语言模型（LLM）引入了一种新颖的前馈网络（FFN）设计，称为激活混合（Mixture of Activations, MoA）。MoA利用了自适应激活混合，允许基于轻量级的、依赖输入的门控机制，将不同的激活函数应用于不同的token。这种方法理论上比固定的激活函数FFN和可学习激活函数（LA）具有更强的表现力。在从0.12B到2B参数的模型上进行的实证评估表明，MoA以最小的开销持续实现更低的终端损失和更好的可扩展性。
TOOL · CL_26875 · May 11 · 16:20

Transformer大语言模型架构趋向标准化栈

对2017年至2025年间53个大语言模型的最新分析显示，Transformer架构正显著趋同。这一事实上的标准包括预归一化 (RMSNorm)、旋转位置嵌入 (RoPE)、MLP中的SwiGLU激活函数以及共享键值注意力机制 (MQA/GQA)。这种趋同归因于优化稳定性提高、每FLOP质量提升以及内核可用性和KV缓存经济性等实际考量。
RESEARCH · CL_09211 · Apr 29 · 15:01

IBM 发布 Granite 4.1 LLMs，支持 512K 上下文并采用 Apache 2.0 许可

IBM 发布了 Granite 4.1 系列大型语言模型，包含 3B、8B 和 30B 参数版本。这些模型通过包含将上下文窗口扩展到 512K 标记的五阶段预训练过程，在约 15 万亿个标记上进行了训练。进一步的优化包括在精选数据上进行监督微调和强化学习。值得注意的是，8B 指令模型取得了与更大的 Granite 4.0 MoE 模型相当的性能，并且所有 Granite 4.1 模型均根据 Apache 2.0 许可提供。
RESEARCH · CL_06782 · Apr 28 · 04:00

MLP 跳跃连接无法被吸收进无残差模型

研究人员调查了一个单隐藏层 MLP 周围的跳跃连接是否可以被吸收进一个相同宽度的无残差 MLP。他们发现，对于 ReLU^2 和 ReGLU 等某些激活函数，由于次数参数的原因，吸收是不可能的。对于 SwiGLU 和 GeGLU 等门控激活函数，线性化参数也得出了相同的结论。虽然在特定的、非通用的权重条件下，吸收对于无门控的 ReLU 和 GELU 是可能的，但跳跃连接和无残差的 MLP 通常代表不同的函数类别。
RESEARCH · CL_06664 · Apr 28 · 04:00

研究：移除 LLM 中的 LayerNorm 可作为隐式正则化器，其影响取决于训练数据大小。

研究人员调查了从神经网络架构中移除层归一化（LayerNorm）的影响，特别是在 GPT-2 和 Llama 等模型中。他们的发现表明，用学习到的激活边界机制动态双曲正切（DyT）替换 LayerNorm，可以作为一种依赖于训练阶段的隐式正则化器。这意味着 DyT 可以在某些训练阶段（例如，较小的数据集）提高性能，但在其他阶段（例如，较大的数据集或增加模型容量）会降低性能。该研究表明，激活饱和是 DyT 性能的关键因素，其饱和水平因模…