English(EN) Diffusion Policy Optimization without Drifting Apart

新的DiPOD框架稳定扩散策略优化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 04:00

研究人员开发了一个名为DiPOD的新框架，以解决扩散策略优化中的不稳定性问题。现有方法会遭受“双重漂移”现象，即优化会导致ELBO偏离真实对数似然，从而导致策略梯度失准。DiPOD通过结合自蒸馏和策略改进梯度更新，并使用on-policy ELBO正则化器来稳定训练。这种方法在扩散语言模型后训练和连续控制扩散策略方面都显示出更高的稳定性和更高的奖励。 AI

影响增强了扩散策略优化的稳定性和性能，可能改进语言建模和控制系统的应用。

排序理由这是一篇详细介绍机器学习特定领域新算法框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Haozhe Jiang, Haiwen Feng, Pieter Abbeel, Jiantao Jiao, Angjoo Kanazawa, Nika Haghtalab · 2026-06-15 04:00

Diffusion Policy Optimization without Drifting Apart

arXiv:2606.13795v1 Announce Type: new Abstract: RL post-training has become increasingly pivotal for improving diffusion policies, but existing diffusion policy-gradient methods are often unstable and cannot achieve reliable policy improvement. We identify the cause as the double…

报道来源 [1]

Diffusion Policy Optimization without Drifting Apart

相关话题