rectifier · PulseAugur

Researchers prove robustness law for two-layer neural networks

Researchers have proven a "law of robustness" for two-layer neural networks with arbitrary weights, addressing a conjecture by Bubeck, Li, and Nagaraj. The proof, which holds for continuous piecewise-linear activations …

RESEARCH · CL_131241 · Jul 7 · 15:21

研究发现：神经网络在组合任务上表现优于NTK限制

一项新的研究论文探讨了训练过的神经网络与其神经切线核（NTK）限制之间的性能差距，特别是在具有组合结构的任务上。该研究在傅里叶复杂度（控制NTK核回归）和架构复杂度（与深度ReLU网络的学习能力相关）之间引入了一个二分法。研究结果表明，当这些复杂度发散时，NTK估计器可能比标准网络存在指数级的次优性，这在迭代锯齿波和超立方稀疏奇偶校验模型等特定模型上得到了证明。

RESEARCH · CL_129168 · Jul 7 · 04:00

新研究揭示深度ReLU网络和SGD训练动力学的奥秘

两篇新研究论文探讨了深度前馈ReLU网络的底层原理和训练动力学。第一篇论文深入研究了这些网络的机制，解释了隐藏层单元如何创建分段线性流形来划分输入空间，从而揭开了深度学习“黑箱”的神秘面纱。第二篇论文侧重于宽ReLU网络中随机梯度下降（SGD）的隐式偏差，揭示了尽管存在过度参数化，但学习到的预测器有效地坍缩为有限表示，其复杂度由数据的组合几何决定。

TOOL · CL_129316 · Jul 7 · 04:00

研究人员对浅层ReLU神经网络中的对称性进行分类

一篇新发表在arXiv上的论文探讨了浅层ReLU神经网络中的对称性，重点关注不同的参数如何导致相同的函数输出。该研究利用ReLU激活函数的不可微特性，实现了对浅层网络情况下这些对称性的完整分类。这项工作建立在先前对参数可辨识性和神经流形几何特性的研究之上，这些特性会影响优化动态。

TOOL · CL_129207 · Jul 7 · 04:00

神经网络玩具模型展示了叠加态计算

研究人员开发了一个玩具模型来探索神经网络中的叠加态计算。通过训练一个具有50个神经元的单隐藏层ReLU网络，在L4损失函数下计算100个稀疏输入特征，他们观察到一个似乎在叠加态中执行所有计算的解决方案。该研究逆向工程了该解决方案，发现网络为每个特征分配稀疏二进制码字，并通过编码器的伪逆进行解码。进一步的分析表明，仅用三个标量就可以恢复网络的大部分性能，这通过构建具有手工设计的代码的等效网络得到了验证。

TOOL · CL_128797 · Jul 7 · 04:00

新的阈值门控原语重塑神经网络非线性

研究人员提出了一种称为阈值门控（TG）的新原语，它可以实现神经非线性，这是传统上由激活函数处理的功能。该TG原语被证明等同于ReLU和Sigmoid等标准激活函数，并且可以在不损失性能的情况下从现有神经网络架构转换而来。研究表明，TG有望在模型压缩、训练效率和硬件实现方面带来改进，特别是通过减少对模数转换器的需求，从而有利于模拟内存系统。

RESEARCH · CL_131257 · Jul 6 · 18:29

新理论统一深度神经网络的深度和复杂度分析

研究人员为深度全连接神经网络开发了一种统一的函数空间理论，提供了对网络深度和复杂性的新视角。与先前仅关注ReLU等特定类型的理论不同，该框架兼容广泛的激活函数。该理论建立了新颖的复杂度界限，表明即使在任意深度下，函数类仍然很小，并提出当复杂度由函数空间范数而非参数数量控制时，深度的表达能力优势会减弱。

RESEARCH · CL_128362 · Jul 6 · 01:58

新理论定义了残差神经网络的最小块宽度

研究人员为内部宽度为一的残差神经网络（ResNets）的通用逼近能力建立了新的理论界限。该研究表明，对于紧凑域上的 $L^p$ 逼近，所需的最小块宽度为 $\max\{d_x, d_y\}$，其中 $d_x$ 和 $d_y$ 分别是输入和输出维度。此外，该论文证明了块宽度小于 $\max\{d_x, d_y\}$ 的 ResNets 无法实现通用逼近，无论其内部宽度如何。

RESEARCH · CL_128380 · Jul 4 · 02:34

提出 GELU 和其他激活函数的新结构化解释

研究人员提出了一种对 GELU、ReLU、SiLU/Swish 和 hard swish 等激活函数的新结构化解释。这项工作将 GELU 不仅仅视为随机门输出，而是通过高斯互补一阶损失函数来理解。这种视角可以推广到一系列阈值传输激活，为理解它们的行为提供了新的途径。在视觉和语言模型上的实验表明，校准或学习的统一阈值门可以与现有激活函数竞争或超越它们。

TOOL · CL_123349 · Jul 3 · 04:00

自旋电子学模拟用于图像识别，性能媲美软件

研究人员开发了一种使用模拟自旋电子元件进行图像识别的新颖方法，特别是基于涡旋的自旋转移矩振荡器（STVO）。该方法通过数据驱动的Thiele方程方法（DD-TEA）进行模拟，无需进行大量的实验操作即可进行超参数调整和基准测试。将STVO动力学集成到极限学习机（ELM）中，并成功应用于MNIST、EMNIST-letters和Fashion MNIST数据集。模拟表明，STVO的非线性动力学可以实现与ReLU和sigmoid等传统软件激…

TOOL · CL_119686 · Jul 1 · 04:00

ShardNet架构在神经控制器中强制执行硬性、非凸安全约束

研究人员推出了一种新颖的神经网络架构ShardNet，旨在严格执行安全关键系统中的硬性、非凸约束。与将安全视为优化指标的先前方法不同，ShardNet通过可微分投影层将安全直接嵌入其结构中。这种方法允许独立优化性能，同时保证形式安全，从而能够为复杂约束合成前向不变的神经网络控制器。该系统在基准测试中已在验证集上实现了100%的安全性，并与现有验证技术相比，提高了安全集合的生成能力。

RESEARCH · CL_117171 · Jun 29 · 15:17

SGD Provably Learns Spurious Features First in Neural Networks

一篇新发表在arXiv上的理论研究，探讨了随机梯度下降（SGD）在两层ReLU神经网络中学习虚假特征（spurious features）的机制。研究表明，SGD会优先并以指数级的速度学习这些虚假相关性，甚至在学习实际信号之前。该研究的分析揭示，优化动态可能会将虚假特征和信号特征耦合起来，从而可能阻碍真实信号的学习，尤其是在虚假相关性很强的情况下。

RESEARCH · CL_115216 · Jun 26 · 08:53

记忆指标可能有助于检测表面肌电信号深度学习中的过拟合

研究人员探索了使用记忆指标来检测表面肌电信号（sEMG）解码器深度学习模型中的过拟合，特别是在受试者特定重新校准的样本量有限的情况下。在这些低样本场景中，诸如验证性能和提前停止等传统方法难以应用。研究表明，修正线性单元（ReLU）激活率的变化可以指示微调过程中学习不成功，为早期识别过拟合提供了一个有前景的工具。

TOOL · CL_109995 · Jun 25 · 04:00

理性神经网络在表达能力上优于标准激活函数

研究人员引入了理性神经网络（RNNs），它使用可训练的低度有理数激活函数。与ReLU和Tanh等传统的分段线性和平滑激活函数相比，这些网络在表达能力和参数效率方面表现出优越性。理论分析表明，在近似能力上存在指数级差距，RNNs在给定误差目标下需要显著更少的参数。在实际应用中，RNNs可以无缝集成到现有架构和训练流程中，通常能达到或超过标准激活函数的性能。

TOOL · CL_108122 · Jun 24 · 04:00

新研究探讨了受限玻尔兹曼机的激活函数

研究人员探讨了受限玻尔兹曼机（RBM）中权值和隐藏单元非线性的统计特性。该研究重点关注四种激活函数：线性、阶跃、ReLU和指数，以了解它们对二元可见单元上诱导分布的影响。研究结果表明，具有高斯权值的RBM通常难以学习具有强高阶交互作用的分布，但采用指数激活函数的模型除外。

RESEARCH · CL_99940 · Jun 18 · 16:57

新理论改进了神经网络的贝叶斯后验适应性

研究人员开发了一个新的理论框架，用于在非参数设置中适应贝叶斯后验分布。该研究侧重于具有p指数尾部的先验，证明了收缩率随着“p”的减小而提高，从而在特定状态下完全适应平滑度。这项工作对理解浅层ReLU神经网络具有启示作用，表明它们可以适应各种正则化水平。

TOOL · CL_98214 · Jun 18 · 04:00

ReLU激活函数对神经网络中梯度下降偏差的影响详述

一篇新的研究论文探讨了ReLU激活函数如何影响高维神经网络回归中梯度下降的隐式偏差。该研究采用新颖的对偶原分析方法，证明对于足够高维的随机数据，隐式偏差近似于最小 $\ell_2$-范数解。此近似以高概率实现，其差距的量级为 $\Theta(\sqrt{n/||\lambda||_1})$，其中 $n$ 是训练样本的数量，$\lambda$ 代表数据协方差矩阵的光谱。研究结果表明，在这些条件下，ReLU激活模式会快速稳定。

TOOL · CL_96921 · Jun 17 · 13:58

机器学习在医疗保健中的课程大纲详解

本文档概述了医疗保健机器学习课程的全面教学大纲。它涵盖了基本概念，如机器学习和深度学习的区别，各种神经网络架构，包括单层感知器和多层感知器，以及诸如批量梯度下降、SGD 和 Adam 等优化算法。该材料还深入探讨了深度学习的具体内容，如激活函数、反向传播、正则化技术和卷积神经网络 (CNN)，特别关注它们在医学成像中的应用，使用 MRI 和 CT 等成像方式。此外，课程还讨论了医学人工智能的关键方面，包括数据集准备、处理类别不平衡、交…

TOOL · CL_93842 · Jun 16 · 04:00

新的IGLU激活函数提供了改进的梯度流

研究人员推出IGLU，一种新颖的深度神经网络参数化激活函数，旨在改善梯度流和优化稳定性。IGLU源自半正态分布下GELU门的混合体，通过单个参数在类似恒等和类似ReLU的行为之间提供连续插值。其重尾柯西门确保所有有限输入的梯度非零，增强了对梯度消失的鲁棒性。一种高效的近似方法IGLU-Approx仅使用ReLU运算，在保持视觉和语言数据集上具有竞争力的性能的同时，降低了计算成本。

TOOL · CL_93810 · Jun 16 · 04:00

使用费曼图计算有限宽度神经网络核校正

研究人员开发了一种新颖的方法，使用费曼图来计算神经网络切线核（NTKs）的有限宽度校正。这种方法简化了代数运算，并实现了层级递归关系，用于预测前导阶的训练动态。该框架已被证明可以扩展深度网络的稳定性结果，并证实对于像ReLU这样的尺度不变非线性函数，在Gram矩阵对角线上不存在有限宽度校正。数值实现表明，这些校正与宽度大于约20的采样神经网络统计数据一致。