Ngau Tau Kok
PulseAugur coverage of Ngau Tau Kok — every cluster mentioning Ngau Tau Kok across labs, papers, and developer communities, ranked by signal.
-
论文探讨预条件梯度下降对神经网络学习机制的影响
本文研究了预条件梯度下降(PGD)方法(如高斯-牛顿法)如何影响谱偏差和神经网络中的“grokking”现象。研究人员提出,PGD可以减轻谱偏差,这种偏差通常导致网络首先学习低频特征,从而可能阻碍捕捉精细结构。研究表明,PGD还可以减少与“grokking”相关的延迟,这是一种假说认为在从神经切线核(NTK)过渡到丰富特征学习机制的过程中出现的延迟泛化效应。实验结果支持“grokking”代表这种过渡行为的观点,PGD能够实现参数空间…
-
An adaptive wavelet-based PINN for problems with localized high-magnitude source
研究人员开发了一种自适应小波基物理信息神经网络(AW-PINN),以解决求解微分方程的局限性,特别是那些具有局部高幅度源项的方程。该新框架动态调整小波基函数,以管理极端损失不平衡并避免标准神经网络固有的频谱偏差。AW-PINN 方法通过不依赖自动微分来加速训练,并在各种具有挑战性的偏微分方程上展示了优于现有方法的性能。
-
新研究探讨了神经网络中超越ReLU的激活函数
一篇新论文探讨了神经网络核的理论基础,特别关注标准ReLU之外的激活函数。研究人员表征了各种非光滑激活函数的Reproducing Kernel Hilbert Spaces (RKHS),将现有理论扩展到SELU、ELU和LeakyReLU等函数。研究结果表明,许多常见的激活函数在不同网络深度下会产生等效的RKHS,而多项式激活函数则显示出与深度相关的RKHS。该研究还深入探讨了无限宽网络中神经网络高斯过程(NNGP)样本路径的光滑性。
-
LoRA微调研究表明秩1已足够,并提出数据感知初始化方法
三篇新研究论文探讨了优化大型语言模型LoRA微调的方法。其中一篇论文提出将LoRA秩阈值降低到1,用于二分类任务,并显示出与更高秩相当的性能。另一项研究引入了一个基于Fisher的框架,该框架利用数据感知敏感性来选择最优LoRA子空间,从而提高下游性能。第三篇论文分析了LoRA权重更新的谱结构,发现低频分量占主导地位,并建议将谱稀疏性作为参数高效微调的设计原则。