Gelu · PulseAugur

新分析统一了深度神经网络的梯度下降收敛性

研究人员开发了一种统一的收敛性分析方法，适用于训练深度神经网络的各种梯度下降优化方法。这种新分析适用于广泛的优化器，包括 Adam、Momentum 和 RMSprop，当与 Softplus 和 GeLU 等解析激活函数一起使用时。该研究利用 Kurdyka-Łojasiewicz 不等式证明了收敛到临界点，为理解 AI 优化算法，特别是 Adam 优化器，做出了新的贡献。

RESEARCH · CL_128380 · Jul 4 · 02:34

提出 GELU 和其他激活函数的新结构化解释

研究人员提出了一种对 GELU、ReLU、SiLU/Swish 和 hard swish 等激活函数的新结构化解释。这项工作将 GELU 不仅仅视为随机门输出，而是通过高斯互补一阶损失函数来理解。这种视角可以推广到一系列阈值传输激活，为理解它们的行为提供了新的途径。在视觉和语言模型上的实验表明，校准或学习的统一阈值门可以与现有激活函数竞争或超越它们。

RESEARCH · CL_119621 · Jun 30 · 15:46

新的NC-FFN架构增强了Transformer的可解释性和效率

研究人员开发了一种新颖的、参数中性的Transformer前馈网络替代方案，称为NC-FFN，它利用显式的模糊集运算。这种新架构在N位奇偶校验任务上表现出强大的参数效率，并在OpenWebText等更大模型的困惑度上与GELU基线相匹配。NC-FFN还提高了语法许可和量词理解能力，使得前馈层的计算更加清晰和可解释。

RESEARCH · CL_107865 · Jun 22 · 21:04

DREG正则化方法在深度学习中展现出卓越的准确性

研究人员推出了一种名为DREG的逐层雅可比正则化技术，该技术可作为神经网络的通用惩罚。在一项大规模实证研究中，DREG与其他正则化器相比，展现出卓越的准确性，尤其是在数据稀疏和使用Transformer架构中常见的GELU激活函数时。该方法持续优于基线，并在噪声鲁棒性方面排名第二，表明其作为深度学习模型的即插即用解决方案的潜力。

RESEARCH · CL_100090 · Jun 19 · 04:00

新研究深入探讨 Transformer 的能耗、学到的线性以及训练动态

近期研究探索了 Transformer 模型的复杂性，重点关注其能耗、内部线性特性和训练动态。其中一篇论文引入了一个缩放模型，用于预测微调期间的能耗，该模型受 Roofline 模型启发，并考虑了并行效应。另一项研究调查了 Transformer 前馈块的线性，揭示了这种特性是学到的而非架构性的，并且在不同层之间存在显著差异。第三篇论文通过连续深度均场控制的视角分析了 Transformer 层，将交叉熵训练与最优控制问题联系起来。此…

TOOL · CL_93842 · Jun 16 · 04:00

新的IGLU激活函数提供了改进的梯度流

研究人员推出IGLU，一种新颖的深度神经网络参数化激活函数，旨在改善梯度流和优化稳定性。IGLU源自半正态分布下GELU门的混合体，通过单个参数在类似恒等和类似ReLU的行为之间提供连续插值。其重尾柯西门确保所有有限输入的梯度非零，增强了对梯度消失的鲁棒性。一种高效的近似方法IGLU-Approx仅使用ReLU运算，在保持视觉和语言数据集上具有竞争力的性能的同时，降低了计算成本。

RESEARCH · CL_93236 · Jun 16 · 04:00

新的神经网络架构应对复杂的科学计算问题 · 跟踪 8 个来源

研究人员正在开发新颖的神经网络架构来求解复杂的偏微分方程 (PDE) 和建模动力学系统。这包括用于离子传输的面向结构的随机神经网络 (SO-RaNN)，用于具有已知图结构的_时间序列_预测的_信息_神经_控制_微分方程 (INDEQS)，以及用于高保真 PDE 解的_启动器-迭代器_神经算子 (SINO)。此外，还提出了正交正则化 (OrthoReg) 来通过防止组件之间的重叠来改进混合符号-神经模型，而其他工作则探索了现代神经网络架…

RESEARCH · CL_90920 · Jun 12 · 08:43

Adam 与 SGD：研究发现没有单一因素能解释性能差距

一项新的研究论文探讨了 Adam 和 SGD 优化算法之间的性能差距，发现没有单一因素能持续解释这种差异。研究表明，这种差距源于数据和模型架构之间复杂的相互作用，而非单一原因。研究人员观察到一个交叉批量大小，随着批量大小的增加，Adam 和 SGD 之间的优势会发生转移，这一现象被他们的理论模型所捕捉。

TOOL · CL_86852 · Jun 12 · 04:00

Apple M4 Max GPU 的张量计算路径被模拟，而非加速

研究人员逆向工程了 Apple M4 Max GPU 上的 Metal 4.1 张量计算路径，发现 fp8 matmul2d 操作是模拟的，而非硬件加速。这意味着该操作在 GPU 的着色器核心上运行，至少以 fp32 精度累积，并且不使用专用的矩阵数据路径或 Apple Neural Engine。这些发现详细记录在一篇题为“Rigel”的论文中，通过实证表征和微基准测试实现，并开发了一个融合内核，其性能比分解路径高出 12.9%。

TOOL · CL_58915 · May 29 · 04:00

新算法为非线性人工智能模型提供鲁棒学习能力

研究人员开发了一种新颖的算法，即使在面对重尾噪声和对抗性破坏时，也能鲁棒地学习高斯单索引模型（SIMs）。该新方法首次为广泛的非线性SIMs提供了鲁棒恢复保证，包括那些具有非单调链接函数（如GeLU和Swish）的模型，这些模型在现代神经网络架构中很常见。该算法围绕真实参数建立了一个与维度无关的凸盆地，通过谱初始化和后续的鲁棒梯度下降实现高效恢复，以近线性时间复杂度实现了O(σ√ε)的估计误差。

RESEARCH · CL_56422 · May 27 · 16:30

论文分析浮点神经网络的表达能力

研究人员发表了一篇论文，探讨了使用浮点算术运算的神经网络的表达能力，超越了假设精确实数的理论模型。该研究引入了一个框架来分析任意归约顺序和不精确激活实现如何影响网络的函数表示能力。这项工作确立了浮点神经网络能够实现通用表示的条件，将先前的发现扩展到更广泛的实际激活函数。

RESEARCH · CL_53504 · May 26 · 07:30

新的MoA FFN设计增强了LLM的表现力和可扩展性

研究人员为大型语言模型（LLM）引入了一种新颖的前馈网络（FFN）设计，称为激活混合（Mixture of Activations, MoA）。MoA利用了自适应激活混合，允许基于轻量级的、依赖输入的门控机制，将不同的激活函数应用于不同的token。这种方法理论上比固定的激活函数FFN和可学习激活函数（LA）具有更强的表现力。在从0.12B到2B参数的模型上进行的实证评估表明，MoA以最小的开销持续实现更低的终端损失和更好的可扩展性。

TOOL · CL_50240 · May 25 · 23:01

激活函数使神经网络能够模拟复杂的非线性模式

神经网络依赖激活函数来引入非线性，使其能够模拟超越简单线性关系的复杂模式。没有这些函数，即使是深度网络也会坍缩成等效的线性模型，严重限制其能力。激活函数的演变，从早期的Sigmoid到ReLU和GELU，反映了深度学习的进步，每种类型都解决了特定的优化挑战，并为AI发展的不同时代提供了动力。

TOOL · CL_45331 · May 22 · 23:10

残差连接通过绕过层来支持更深层的LLM训练

本文解释了残差连接，这是Transformer架构中的一个关键组成部分，对于训练像大型语言模型（LLMs）这样的深度神经网络至关重要。残差连接通过提供梯度的替代路径来帮助克服梯度消失问题，使模型能够学习更复杂的模式。这项技术对于自然语言处理（NLP）任务（如翻译、摘要和文本生成）的进步至关重要。

TOOL · CL_45000 · May 22 · 04:00

已识别出神经网络权重漂移是训练动态问题

研究人员在神经网络中发现了一种称为“权重漂移”的现象，其中优化过程会无意中将权重推向负值。这种漂移独立于训练数据，在使用标准损失函数和 ReLU、GELU 等常见激活函数时会出现。研究表明，这种漂移会导致显著的激活稀疏性，可能影响模型准确性，并且还会放大 Transformer 层中的激活尖峰。

TOOL · CL_43959 · May 21 · 13:11

新方法保护嵌入式神经网络免受计时攻击

研究人员开发了一种新的嵌入式神经网络激活函数实现方法，可防止通过计时侧信道泄露信息。该方法通过采用无分支选择和固定成本近似等技术，确保所有输入的执行时间一致，而与所使用的具体激活函数无关。在带有常见激活函数的 ARM Cortex-M4 平台上进行测试，受保护的实现获得了相同的周期计数，同时保持了高数值精度，为安全的嵌入式推理提供了一个实用的解决方案。

TOOL · CL_41870 · May 20 · 07:29

视觉模型摒弃激活函数，采用多项式替代方案

研究人员开发了用于视觉模型的新型无激活骨干网络架构，使用多项式函数替代ReLU或GELU等传统逐点非线性函数。这些集成到MetaFormer框架中的新颖模块，在ImageNet分类和语义分割等任务上，表现出与基于激活的模型相当或更优的性能。研究还表明，这些多项式变体在需要较低计算成本的情况下，性能优于先前专门的多项式网络。

RESEARCH · CL_18833 · May 5 · 04:00

神经网络实现超快收敛，并用浮点运算表示复杂函数

两篇新的arXiv论文探讨了神经网络收敛和表示能力的理论方面。第一篇论文证明，在特定条件下，包括硬间隔场景，神经网络分类器可以为各种激活函数实现超快收敛速率。第二篇论文研究了浮点网络的表示能力，表明它们可以使用自动微分来近似函数值和梯度，即使在实际的激活函数和有限精度算术下也是如此。

RESEARCH · CL_06782 · Apr 28 · 04:00

MLP 跳跃连接无法被吸收进无残差模型

研究人员调查了一个单隐藏层 MLP 周围的跳跃连接是否可以被吸收进一个相同宽度的无残差 MLP。他们发现，对于 ReLU^2 和 ReGLU 等某些激活函数，由于次数参数的原因，吸收是不可能的。对于 SwiGLU 和 GeGLU 等门控激活函数，线性化参数也得出了相同的结论。虽然在特定的、非通用的权重条件下，吸收对于无门控的 ReLU 和 GELU 是可能的，但跳跃连接和无残差的 MLP 通常代表不同的函数类别。

RESEARCH · CL_03012 · Apr 23 · 13:42

新的 GEM 激活函数提供了比 ReLU 更平滑、更具理性的替代方案

研究人员推出了一种名为 Geometric Monomial (GEM) 的新型激活函数族，专为深度神经网络设计。这些函数采用纯粹的有理数算术，并提供 $C^{2N}$-平滑性，旨在克服标准 ReLU 的局限性。实验表明，GEM 变体在 CIFAR-10、CIFAR-100、MNIST、GPT-2 和 BERT-small 等各种基准测试中，其性能可媲美甚至超越 GELU 等成熟函数。