实体 Neural tangent kernel

Neural tangent kernel

PulseAugur coverage of Neural tangent kernel — every cluster mentioning Neural tangent kernel across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 18

发布 · 30天

90 天内 0

论文 · 30天

90 天内 18

层级分布 · 90 天

主题

论文 18
其他 10
模型发布 5
安全 2
基础设施 1

时间线

2026-05-13 research_milestone Publication of a paper introducing a force-aware Neural Tangent Kernel for active learning of MLIPs. 来源

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 18 条

RESEARCH · CL_131241 · Jul 7 · 15:21

研究发现：神经网络在组合任务上表现优于NTK限制

一项新的研究论文探讨了训练过的神经网络与其神经切线核（NTK）限制之间的性能差距，特别是在具有组合结构的任务上。该研究在傅里叶复杂度（控制NTK核回归）和架构复杂度（与深度ReLU网络的学习能力相关）之间引入了一个二分法。研究结果表明，当这些复杂度发散时，NTK估计器可能比标准网络存在指数级的次优性，这在迭代锯齿波和超立方稀疏奇偶校验模型等特定模型上得到了证明。
RESEARCH · CL_128356 · Jul 6 · 08:07

新研究详解基于分数的生成模型SGD收敛性

研究人员发表了一篇论文，详细介绍了随机梯度下降（SGD）应用于基于分数的生成模型（SGMs）时的非渐近收敛性。该研究为训练SGMs的SGD提供了理论保证，解决了优化动力学问题，而这方面的研究比其采样过程的研究要少。该工作为一般分数参数化建立了收敛率，并使用神经切线核分析了过参数化网络，为实际中的权重选择提供了指导。
TOOL · CL_122931 · Jul 2 · 10:39

新的变分表述简化了神经网络训练

研究人员提出了一种新颖的浅层神经网络变分表述，将离散训练问题视为连续变分代理。该方法利用加权 Sobolev 空间中的 $\lambda$-凸泛函，证明了全局适定性和稳定性以及出乎意料的正则性。与现有方法不同，这种表述提供了对椭圆正则性和凸分析的直接访问，通过单个线性系统求解最优参数密度，从而完全绕过了迭代优化。该工作还建立了明确的泛化误差控制，并证明了有限宽度网络以 $O(1/N)$ 的速率达到连续体最优值，弥合了神经切线核和特征学…
TOOL · CL_106826 · Jun 22 · 14:00

新框架分析神经网络中梯度下降的收敛性

研究人员开发了一个新框架来分析神经网络中梯度下降的收敛性，该框架超越了传统的神经切线核（NTK）理论。该框架适用于广泛的架构，包括预归一化的多层Transformer，并证明在温和的假设和特定的初始化下，梯度下降可以收敛到一个稳定点。该分析沿梯度下降轨迹建立了Lipschitz平滑性，并揭示学习率缩放取决于网络深度和瓶颈维度而非宽度，这对残差连接和函数组合具有影响。
RESEARCH · CL_93608 · Jun 16 · 04:00

新研究探究 AI 模型中的灾难性遗忘 · 追踪 4 个来源

三篇新研究论文探讨了持续学习系统中灾难性遗忘的现象，特别是在大型语言模型中。第一篇论文引入了一个受控框架来研究遗忘机制，提出表示强度和特征稀疏性起着关键作用，而不仅仅是叠加。第二篇和第三篇论文（似乎是相同的）在神经切线核（NTK）框架下提供了一个函数空间理论，提出遗忘是低秩的，并集中在特定的输出空间方向。第四篇论文对二十个最先进模型进行了机制分析，识别了脆弱的神经回路，并引入了一种名为低秩电路投影（LRCP）的新干预措施来减轻遗忘。
TOOL · CL_82661 · Jun 10 · 04:00

新理论将神经网络集成与核反应模型联系起来

一篇新论文提出了一个理论框架，用于理解开放系统中的神经网络集成，并将其与核反应理论进行类比。研究表明，现有的集成理论主要处理封闭系统，忽略了信息可以不可逆地流出的关键“开放”情况。该论文引入了一种使用分布矩和高斯代数的数学方法来分析这个开放系统，发现虽然可以跟踪守恒通量，但最有用的不确定性在于模型“封闭”的一半。
RESEARCH · CL_79476 · Jun 7 · 19:33

新方法分析非线性最小二乘模型中的泛化能力

研究人员开发了一种新方法来理解非线性最小二乘模型如何泛化。他们的方法利用平均算法稳定性来推导局部最小化器的误差界限。这些界限与训练参数处梯度模型的几何形状相关，提供了依赖于学习到的几何形状而非仅仅参数数量的见解。
RESEARCH · CL_77144 · Jun 4 · 23:04

深度神经网络实现最优泛化率

两篇新提交至arXiv的论文分析了深度神经网络中梯度下降方法的泛化性能。研究为使用GD和SGD训练的深度ReLU网络中的超额总体风险建立了minimax最优率，前提是网络宽度与深度和样本量成比例缩放。这些发现表明，具有足够宽度的深度神经网络可以实现与核方法相当的泛化率。
TOOL · CL_51497 · May 26 · 04:00

NTK理论已扩展到神经网络分类

研究人员已将神经切线核（NTK）理论扩展到分类任务，而此前该理论仅限于回归损失。他们确定了在交叉熵损失的训练过程中，宽神经网络保持恒定NTK的条件，包括参数空间正则化或非退化目标。这使得训练过程可以通过线性化模型进行精确近似，通过NTK提供明确的解的表征，并将模型不确定性与贝叶斯方法联系起来。
TOOL · CL_51380 · May 26 · 04:00

新理论解释神经网络训练速度

研究人员开发了一个新的理论框架，以更好地理解过度参数化神经网络的优化动态。该框架以神经切线核（NTK）为中心，引入了标签-NTK对齐和残差-NTK对齐等概念，以解释数据标签如何与NTK的光谱特性相互作用。这项工作提供了更严格的收敛性和泛化界限，更接近MLP和CNN等模型中观察到的实际训练速度。
RESEARCH · CL_48913 · May 22 · 09:01

新的优化技术提高了复杂物理神经网络的精度

研究人员开发了一种名为 SOAP+GN 的新优化技术，以提高物理信息神经网络 (PINNs) 在处理复杂耦合多物理场系统时的精度。该方法解决了 PINN 精度随着方程间耦合增强而下降的已知问题。通过采用 Kronecker 预处理优化和逆梯度范数损失平衡，SOAP+GN 在大量实验中表现出鲁棒的精度，即使在以前标准优化方法（如 Adam+GN）不堪重负的挑战性二维系统中也是如此。
TOOL · CL_44969 · May 22 · 04:00

新方法增强神经网络不确定性估计

研究人员开发了一种新方法来改进用于估计神经网络不确定性的贝叶斯最后一层（BLLs）。他们的方法利用神经切线核（NTK）特征的投影来考虑整个网络的可变性，解决了标准BLLs中出现的认知不确定性低估问题。该方法可证明具有更大或相等的后验方差，并包含一个子采样方案以降低计算成本。在各种数据集上的实证测试表明，与现有方法相比，校准和不确定性估计得到了改善。
RESEARCH · CL_41779 · May 20 · 05:50

GLU 结构通过重塑 NTK 谱加速 LLM 优化

研究人员调查了门控线性单元 (GLU) 在大型语言模型中为何优于非 GLU 结构。他们在神经切线核 (NTK) 机制下的分析表明，GLU 重塑了 NTK 谱，从而减小了条件数并加快了收敛速度。虽然 GLU 似乎能加速优化，但经验观察表明，它在减小 ViT 和 GPT-2 等模型的泛化差距方面作用有限。
RESEARCH · CL_38194 · May 17 · 21:30

新数学框架解释 Transformer 训练动力学

一篇新论文引入了一个数学框架，用于理解 Transformer 的训练过程，特别是在深度和宽度都趋于无穷大的均值场状态下。与可以用常微分方程（ODEs）建模的 ResNets 不同，由于注意力机制的 token 耦合，Transformer 的训练由偏微分方程（PDEs）描述。该研究确立了神经切线核（Neural Tangent Kernel）可注入的条件，这保证了梯度流收敛到全局最小值，从而消除了伪局部最小值。
TOOL · CL_30810 · May 13 · 17:08

新框架实现机器学习势能的可扩展、鲁棒主动学习

研究人员开发了一种新的机器学习势能（MLIPs）主动学习框架，解决了可扩展性和鲁棒性挑战。该框架利用力感知神经切线核（NTK）来高效筛选大量的分子结构候选池。该方法在OC20数据集上表现出有效性，实现了低能量和力误差，并在其他基准测试中保持竞争力且鲁棒。
TOOL · CL_22092 · May 8 · 04:00

论文探讨预条件梯度下降对神经网络学习机制的影响

本文研究了预条件梯度下降（PGD）方法（如高斯-牛顿法）如何影响谱偏差和神经网络中的“grokking”现象。研究人员提出，PGD可以减轻谱偏差，这种偏差通常导致网络首先学习低频特征，从而可能阻碍捕捉精细结构。研究表明，PGD还可以减少与“grokking”相关的延迟，这是一种假说认为在从神经切线核（NTK）过渡到丰富特征学习机制的过程中出现的延迟泛化效应。实验结果支持“grokking”代表这种过渡行为的观点，PGD能够实现参数空间…
RESEARCH · CL_18331 · May 5 · 15:29

新研究解释了零阶优化为何能扩展到大型语言模型

两篇新论文探讨了用于微调大型语言模型（LLMs）的零阶（ZO）优化。第一篇论文引入了核视角，表明近似误差取决于输出大小而非参数维度，从而从理论上证明了ZO方法的可扩展性。第二篇论文研究了自适应ZO优化器，提出了MEAZO，一种内存效率高的方法，在减少内存开销的同时保持了性能。
RESEARCH · CL_15445 · May 2 · 00:21

新理论探讨预训练和稀疏连接如何增强深度学习泛化能力

三篇新论文探讨了深度学习泛化能力的理论基础。其中一篇论文将预训练确定为弱到强泛化能力的关键因素，并通过预训练过程中的相变展示了其出现。另一篇研究了卷积网络中的稀疏连接如何通过处理低维块中的输入来提高泛化能力，为它们的优势提供了原则性解释。第三篇论文提出了一个非渐近理论，通过展示神经切线核如何划分输出空间、管理信号和噪声来解释泛化能力，并引入了一个提高训练效率和性能的实用目标。

研究发现：神经网络在组合任务上表现优于NTK限制

新研究详解基于分数的生成模型SGD收敛性

新的变分表述简化了神经网络训练

新框架分析神经网络中梯度下降的收敛性

新研究探究 AI 模型中的灾难性遗忘 · 追踪 4 个来源

新理论将神经网络集成与核反应模型联系起来

新方法分析非线性最小二乘模型中的泛化能力

深度神经网络实现最优泛化率

NTK理论已扩展到神经网络分类

新理论解释神经网络训练速度

新的优化技术提高了复杂物理神经网络的精度

新方法增强神经网络不确定性估计

GLU 结构通过重塑 NTK 谱加速 LLM 优化

新数学框架解释 Transformer 训练动力学

新框架实现机器学习势能的可扩展、鲁棒主动学习

论文探讨预条件梯度下降对神经网络学习机制的影响

新研究解释了零阶优化为何能扩展到大型语言模型

新理论探讨预训练和稀疏连接如何增强深度学习泛化能力