English(EN) Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory

随机矩阵理论检测神经网络和大型语言模型中的过拟合

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-12 16:57

研究人员开发了一种新颖的方法，使用随机矩阵理论来检测神经网络中的过拟合，特别是在长时程训练的“反领悟”阶段。该技术通过分析随机权重矩阵中与Marchenko-Pastur分布的偏差来识别模型层中的“相关性陷阱”。研究发现，随着测试准确率下降而训练准确率保持高位，这些陷阱会增加，重要的是，一些大型语言模型也表现出类似的陷阱，这表明可能存在有害的过拟合。 AI

影响这种新方法可以帮助开发人员识别和减轻大型语言模型中有害的过拟合，从而可能提高它们的泛化能力和可靠性。

排序理由该集群包含一篇学术论文，详细介绍了一种检测神经网络过拟合的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Charles H Martin · 2026-05-12 16:57

使用随机矩阵理论检测长时域理解中神经网络的过拟合

Training Neural Networks (NNs) without overfitting is difficult; detecting that overfitting is difficult as well. We present a novel Random Matrix Theory method that detects the onset of overfitting in deep learning models without access to train or test data. For each model laye…

报道来源 [1]

使用随机矩阵理论检测长时域理解中神经网络的过拟合

相关实体

相关话题