提出了一种新的数据集使用情况推断(DUI)框架,旨在确定在训练机器学习模型时使用的数据集比例,而无需影子模型或保留数据。该方法生成合成的非成员样本,并将 DUI 视为混合比例估计问题。在大型图像生成模型上的实验证明了其在量化数据集使用方面的有效性,为数据所有者提供了一个实用的解决方案。 AI
影响 为数据所有者提供了一个实用的工具来确定机器学习模型中的数据使用情况,可能影响数据许可和隐私。
排序理由 该集群包含一篇学术论文,详细介绍了一种新的数据集使用情况推断方法。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Dataset Usage Inference
- held-out data
- Hugging Face
- image generative models
- machine learning
- shadow models
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →