一篇新发表在 arXiv 上的理论研究探讨了生成模型在递归再训练过程中如何避免崩溃。研究人员提出,使用多个、多样化的奖励函数进行精选,而不是单一固定的奖励函数,可以保持输出的多样性。该研究将这些动态形式化,证明在特定条件下,模型可以收敛到一个平衡竞争偏好的稳定分布,类似于纳什谈判解。 AI
影响 为改进生成模型在再训练过程中的稳定性和多样性提供了一个理论框架。
排序理由 这是一项发表在 arXiv 上的理论研究,符合研究类别。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →