PulseAugur
实时 13:15:06
实体 Resnet

Resnet

PulseAugur coverage of Resnet — every cluster mentioning Resnet across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
8
90 天内 8
发布 · 30天
0
90 天内 0
论文 · 30天
8
90 天内 8
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 8 条
  1. TOOL · CL_58778 ·

    新的模型融合技术提高了零样本性能

    研究人员开发了一种新的以神经元为中心的模型融合方法,解决了独立训练的神经网络中表示发散带来的挑战。该方法将融合视为一个表示匹配问题,对齐模型间的中间神经元以近似目标表示。它结合了神经元归因分数来优先考虑显著特征,并适用于各种架构,尤其在零样本和非独立同分布(non-IID)数据场景下表现出显著的改进。

  2. TOOL · CL_51441 ·

    Branch scaling improves ResNet generalization via depth-wise decay

    研究人员从理论上证明,通过快速随深度衰减的缩放因子,可以提高宽残差网络(ResNets)的泛化能力。这种方法与提前停止相结合,可以使过参数化的ResNets达到最佳泛化率。该研究通过在合成数据和MNIST、CIFAR-100等常见分类任务上的实验验证了这些发现,为增强网络性能提供了新的途径。

  3. TOOL · CL_50848 ·

    格论为深度卷积网络提供代数框架

    研究人员利用格论和数学形态学开发了一种新的深度卷积神经网络代数框架。该方法系统地分析了标准网络层,揭示了典型的线性卷积、ReLU和最大池化流水线会产生一个交叉格算子。该研究确定了三种特定的层设计——最大加形态学、谱维纳和自对偶形态学——它们作为真正的幂等开运算,为网络深度带来的表征能力提供了理论基础。

  4. RESEARCH · CL_38194 ·

    新数学框架解释 Transformer 训练动力学

    一篇新论文引入了一个数学框架,用于理解 Transformer 的训练过程,特别是在深度和宽度都趋于无穷大的均值场状态下。与可以用常微分方程(ODEs)建模的 ResNets 不同,由于注意力机制的 token 耦合,Transformer 的训练由偏微分方程(PDEs)描述。该研究确立了神经切线核(Neural Tangent Kernel)可注入的条件,这保证了梯度流收敛到全局最小值,从而消除了伪局部最小值。

  5. TOOL · CL_30961 ·

    Neural Feature Dynamics 框架为深度网络训练提供新见解

    研究人员开发了一个名为神经特征动力学 (NFD) 的新框架,以更好地理解深度神经网络训练过程中特征的演变方式,特别是在无限深度极限下。该研究侧重于 ResNets,并解决了反向传播中权重重用引起的正向特征和反向梯度之间复杂的相互作用。NFD 通过解耦这些相关的项,为特征学习动力学提供了更准确的无限深度极限,表明随着网络深度的增加,重用权重的 d 影响会减弱。

  6. TOOL · CL_20404 ·

    Layerwise LQR 框架使用几何感知控制优化深度网络

    研究人员开发了 Layerwise LQR (LLQR),一个用于深度学习模型的新优化框架。LLQR 将二阶优化方法(如牛顿法)重新表述为线性二次调节器问题。这种方法可以学习结构化的逆预处理器,在不计算完整曲率矩阵的情况下捕获全局层级动态。在 ResNets 和 Transformers 上的实验表明,LLQR 可以在计算开销极小的情况下提高优化速度和最终模型性能。

  7. RESEARCH · CL_11881 ·

    新研究揭示隐式偏差驱动深度学习中的神经缩放定律

    研究人员发现了两个新的动力学缩放定律,它们描述了神经网络性能如何随着训练过程中复杂性度量的变化而变化。这些定律在CNN和Vision Transformers等各种架构以及多个数据集上均有观察到,并在收敛时恢复了已建立的测试误差缩放定律。单层感知器的分析工作支持了这些发现,并通过基于梯度的训练引入的隐式偏差来解释这种现象。

  8. RESEARCH · CL_06364 ·

    深度残差网络中的渐进逼近:理论与验证

    研究人员引入了层级渐进逼近(LPA),一种深度残差网络的新训练原则。该方法将残差网络重构为逐层逼近过程,证明误差可以随着网络深度的增加而单调递减。LPA使单个训练好的网络能够在不同深度提供有用的预测,从而无需重新训练即可实现高效推理。