English(EN) Which Leakage Types Matter? A Quantitative Landscape Across 2,047 Benchmark Datasets

研究揭示选择性泄露使机器学习基准分数膨胀90%

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

一篇新研究论文量化了不同数据泄露类型对机器学习模型的影响。研究发现，选择性泄露，如数据窥探或种子挑拣，会显著膨胀报告的分数，可能高达90%。记忆性泄露也随着模型容量的增加而增加，而估计性和边界性泄露的影响微乎其微。研究结果表明，对于表格数据集而言，选择性泄露是最关键的担忧。 AI

影响强调了可能导致机器学习基准结果失真的关键数据泄露类型，敦促研究人员关注选择性泄露。

排序理由学术论文，详细介绍了机器学习中数据泄露类型的量化实验。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Simon Roth · 2026-06-02 04:00

Which Leakage Types Matter? A Quantitative Landscape Across 2,047 Benchmark Datasets

arXiv:2604.04199v2 Announce Type: replace Abstract: Twenty-eight within-subject counterfactual experiments across 2,047 iid tabular datasets, plus a boundary experiment on 129 temporal datasets, measure the severity of four data leakage classes in machine learning. Class I (estim…