English(EN) Are we really tilting? The mechanics of reward guidance in flow and diffusion models

新研究揭示了生成模型中奖励破解的核心机制

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员已经确定了生成模型中奖励破解的一个根本原因，特别是在流模型和扩散模型中。他们发现，在实现奖励引导时使用的一种常见近似方法，即Doob h-函数的有限粒子插件估计，会导致模型以牺牲保真度为代价来过度优化奖励。该研究指出了该估计器的两种失效模式：模式内奖励破解以及无法选择高奖励模式。为了解决这些问题，研究人员提出了一种奖励阻尼计划来纠正模式内偏差，并强调了最佳n抽样在模式选择中的重要性。 AI

影响识别出奖励破解的根本原因，有望带来更强大、更可靠的生成式AI系统。

排序理由详细介绍生成模型理论发现和实验验证的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

Sanjit Dandapanthula

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Sanjit Dandapanthula, Nicholas M. Boffi · 2026-06-03 04:00

我们真的在倾斜吗？流模型和扩散模型中奖励引导的机制

arXiv:2606.02884v1 Announce Type: cross Abstract: Reward guidance algorithms steer a learned generative process toward the reward-tilted measure at inference time. While empirically powerful, these methods are prone to reward hacking: the guided model over-optimizes the reward at…

报道来源 [1]

我们真的在倾斜吗？流模型和扩散模型中奖励引导的机制

相关实体

相关话题