PulseAugur
实时 14:25:40
English(EN) Which Leakage Types Matter? A Quantitative Landscape Across 2,047 Benchmark Datasets

研究揭示选择性泄露使机器学习基准分数膨胀90%

一篇新研究论文量化了不同数据泄露类型对机器学习模型的影响。研究发现,选择性泄露,如数据窥探或种子挑拣,会显著膨胀报告的分数,可能高达90%。记忆性泄露也随着模型容量的增加而增加,而估计性和边界性泄露的影响微乎其微。研究结果表明,对于表格数据集而言,选择性泄露是最关键的担忧。 AI

影响 强调了可能导致机器学习基准结果失真的关键数据泄露类型,敦促研究人员关注选择性泄露。

排序理由 学术论文,详细介绍了机器学习中数据泄露类型的量化实验。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Simon Roth ·

    Which Leakage Types Matter? A Quantitative Landscape Across 2,047 Benchmark Datasets

    arXiv:2604.04199v2 Announce Type: replace Abstract: Twenty-eight within-subject counterfactual experiments across 2,047 iid tabular datasets, plus a boundary experiment on 129 temporal datasets, measure the severity of four data leakage classes in machine learning. Class I (estim…