English(EN) Leveraging Data Symmetries to Select an Optimal Subset of Training Data under Label Noise

研究人员探索数据对称性以改进噪声数据集选择以用于机器学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了一种新方法来识别最优训练数据子集，尤其是在处理标签噪声时。该方法利用数据对称性和不变性来提高 k-近邻 (k-NN) 在选择低噪声样本时的准确性。研究结果表明，即使在高维环境中，利用这些潜在的对称性也能带来与在无噪声数据集上训练相媲美的性能。 AI

影响提高了在潜在有噪声的真实世界数据集上训练的模型的鲁棒性。

排序理由学术论文，详细介绍了机器学习中数据选择的一种新颖方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Kumar Shubham, Pavan Karjol, Kiran M K, Prathosh AP · 2026-05-05 04:00

Leveraging Data Symmetries to Select an Optimal Subset of Training Data under Label Noise

arXiv:2605.01874v1 Announce Type: new Abstract: The performance of machine learning models often relies on large labeled datasets; however, data collected from diverse sources can contain label noise. Recent work has shown that, in noisy settings, there may exist a subset of the …