一个新的理论框架解决了生成式AI模型在自身输出现场进行训练的挑战,这一过程被称为数据污染。研究人员已经证明,在特定的、温和的条件下,这些模型可以收敛到真实的数据分布。收敛速度受到模型固有的能力和每次训练迭代中使用的真实数据比例的影响,这表明在数据限制和模型限制的学习阶段之间存在一个转变。研究还表明,纠正真实数据中的偏差可以防止其在训练过程中被放大,实验结果验证了这些理论发现对于长期AI稳定性。 AI
影响 为AI模型的稳定性提供了理论保证,可能能够实现对自生成数据更鲁棒的训练。
排序理由 在arXiv上发表的学术论文,详细介绍了在数据污染下AI模型稳定性的理论保证。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Didong Li
- Generative Artificial Intelligence
- Gotit.pub
- Hugging Face
- IArxiv
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →