English(EN) Curated Synthetic Data Doesn't Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences

新理论表明，多样化的奖励可以防止 AI 模型崩溃

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

一篇新发表在 arXiv 上的理论研究探讨了生成模型在递归再训练过程中如何避免崩溃。研究人员提出，使用多个、多样化的奖励函数进行精选，而不是单一固定的奖励函数，可以保持输出的多样性。该研究将这些动态形式化，证明在特定条件下，模型可以收敛到一个平衡竞争偏好的稳定分布，类似于纳什谈判解。 AI

影响为改进生成模型在再训练过程中的稳定性和多样性提供了一个理论框架。

排序理由这是一项发表在 arXiv 上的理论研究，符合研究类别。 [lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ali Falahati, Mohammad Mohammadi Amiri, Kate Larson, Lukasz Golab · 2026-06-04 04:00

精选合成数据不必崩溃：生成式再训练与多元偏好的理论研究

arXiv:2605.07724v2 Announce Type: replace-cross Abstract: Recursive retraining of generative models poses a critical representation challenge: when synthetic outputs are curated based on a fixed reward signal, the model tends to collapse onto a narrow set of outputs that over-opt…