English(EN) Curated Synthetic Data Doesn't Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences

AI模型可通过多样化的奖励函数避免输出崩溃

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 13:27

一项新的理论研究探讨了生成式模型如何在递归再训练过程中避免崩溃到狭窄的输出范围。研究人员提出，在数据精选中使用多个、多样化的奖励函数，而不是单一目标，可以保持输出的多样性。该研究将这些动态形式化，并证明在特定条件下，模型可以收敛到一个稳定的分布，该分布平衡了相互竞争的高回报区域，为合成再训练中的价值聚合提供了正式的解释。 AI

影响这项研究提供了一个理论框架，以提高生成模型在再训练过程中的稳定性和多样性，可能对未来的模型开发产生影响。

排序理由该集群包含一篇详细介绍生成模型再训练理论研究的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

Generative models

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Lukasz Golab · 2026-05-08 13:27

精选合成数据不必崩溃：生成式再训练与多元偏好的理论研究

Recursive retraining of generative models poses a critical representation challenge: when synthetic outputs are curated based on a fixed reward signal, the model tends to collapse onto a narrow set of outputs that over-optimize that objective. Prior work suggests that such collap…

报道来源 [1]

精选合成数据不必崩溃：生成式再训练与多元偏好的理论研究

相关实体

相关话题