English(EN) Can Generative Artificial Intelligence Survive Data Contamination? Theoretical Guarantees under Contaminated Recursive Training

新理论表明AI模型可以应对数据污染

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

一个新的理论框架解决了生成式AI模型在自身输出现场进行训练的挑战，这一过程被称为数据污染。研究人员已经证明，在特定的、温和的条件下，这些模型可以收敛到真实的数据分布。收敛速度受到模型固有的能力和每次训练迭代中使用的真实数据比例的影响，这表明在数据限制和模型限制的学习阶段之间存在一个转变。研究还表明，纠正真实数据中的偏差可以防止其在训练过程中被放大，实验结果验证了这些理论发现对于长期AI稳定性。 AI

影响为AI模型的稳定性提供了理论保证，可能能够实现对自生成数据更鲁棒的训练。

排序理由在arXiv上发表的学术论文，详细介绍了在数据污染下AI模型稳定性的理论保证。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Kevin Wang, Hongqian Niu, Didong Li · 2026-06-29 04:00

Can Generative Artificial Intelligence Survive Data Contamination? Theoretical Guarantees under Contaminated Recursive Training

arXiv:2602.16065v2 Announce Type: replace-cross Abstract: As artificial intelligence (AI)-generated content proliferates, models are increasingly trained on their own outputs, risking progressive degradation or collapse. In this article, we provide the first positive, rigorous th…

报道来源 [1]

Can Generative Artificial Intelligence Survive Data Contamination? Theoretical Guarantees under Contaminated Recursive Training

相关实体

相关话题