PulseAugur
实时 16:08:19
实体 diffusion policy optimization

diffusion policy optimization

PulseAugur coverage of diffusion policy optimization — every cluster mentioning diffusion policy optimization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_91432 ·

    新的DiPOD框架稳定扩散策略优化

    研究人员开发了一个名为DiPOD的新框架,以解决扩散策略优化中的不稳定性问题。现有方法会遭受“双重漂移”现象,即优化会导致ELBO偏离真实对数似然,从而导致策略梯度失准。DiPOD通过结合自蒸馏和策略改进梯度更新,并使用on-policy ELBO正则化器来稳定训练。这种方法在扩散语言模型后训练和连续控制扩散策略方面都显示出更高的稳定性和更高的奖励。