English(EN) Dataset Usage Inference without Shadow Models or Held-out Data

新的 DUI 方法无需影子模型即可量化数据集使用情况

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

提出了一种新的数据集使用情况推断（DUI）框架，旨在确定在训练机器学习模型时使用的数据集比例，而无需影子模型或保留数据。该方法生成合成的非成员样本，并将 DUI 视为混合比例估计问题。在大型图像生成模型上的实验证明了其在量化数据集使用方面的有效性，为数据所有者提供了一个实用的解决方案。 AI

影响为数据所有者提供了一个实用的工具来确定机器学习模型中的数据使用情况，可能影响数据许可和隐私。

排序理由该集群包含一篇学术论文，详细介绍了一种新的数据集使用情况推断方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Wojciech {\L}apacz, Stanis{\l}aw Pawlak, Jan Dubi\'nski, Franziska Boenisch, Adam Dziedzic · 2026-06-26 04:00

无需影子模型或留出数据即可进行数据集使用推断

arXiv:2606.26257v1 Announce Type: new Abstract: How much of my data was used to train a machine learning model? Dataset Usage Inference (DUI) aims to answer this by estimating what fraction of a dataset contributed to a model's training. However, existing DUI methods rely on assu…