研究人员已经确定了生成模型中奖励破解的一个根本原因,特别是在流模型和扩散模型中。他们发现,在实现奖励引导时使用的一种常见近似方法,即Doob h-函数的有限粒子插件估计,会导致模型以牺牲保真度为代价来过度优化奖励。该研究指出了该估计器的两种失效模式:模式内奖励破解以及无法选择高奖励模式。为了解决这些问题,研究人员提出了一种奖励阻尼计划来纠正模式内偏差,并强调了最佳n抽样在模式选择中的重要性。 AI
影响 识别出奖励破解的根本原因,有望带来更强大、更可靠的生成式AI系统。
排序理由 详细介绍生成模型理论发现和实验验证的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →