PulseAugur
实时 16:10:09
实体 policy-gradient method

policy-gradient method

PulseAugur coverage of policy-gradient method — every cluster mentioning policy-gradient method across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
4
90 天内 4
发布 · 30天
0
90 天内 0
论文 · 30天
4
90 天内 4
层级分布 · 90 天
主题
情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 4 条
  1. TOOL · CL_91432 ·

    新的DiPOD框架稳定扩散策略优化

    研究人员开发了一个名为DiPOD的新框架,以解决扩散策略优化中的不稳定性问题。现有方法会遭受“双重漂移”现象,即优化会导致ELBO偏离真实对数似然,从而导致策略梯度失准。DiPOD通过结合自蒸馏和策略改进梯度更新,并使用on-policy ELBO正则化器来稳定训练。这种方法在扩散语言模型后训练和连续控制扩散策略方面都显示出更高的稳定性和更高的奖励。

  2. TOOL · CL_53655 ·

    新策略梯度方法解决长时域决策问题

    研究人员开发了一种新方法来解决长时域决策问题,其中即时奖励可能导致有害的长期后果。他们的工作识别了策略梯度方法的两种关键失效模式:“完成”(达到时域终点)和“最优性”(实现最佳可能结果)。通过分离这两种模式,他们提出了一种提高完成率并缩小最优性差距的方法,并在模拟环境中(如砌砖工职业和NBA球员职业)证明了其有效性。

  3. TOOL · CL_61764 ·

    策略梯度方法在长时序决策问题中的分析

    研究人员探索了策略梯度方法在长时序决策问题中的应用,这类问题中即时奖励可能导致重大的未来负面后果。他们识别出两种不同的失败模式:完成(completion),即达到决策时限;最优性(optimality),即在达到时限的情况下做出最佳决策。该研究提出了一种分离这两个问题的方法,并在模拟场景(如砌砖工的职业生涯和NBA球员的职业生涯)中进行了测试,发现他们的方法提高了性能。

  4. TOOL · CL_49344 ·

    新分析表明伙伴选择促进多智能体系统中的合作

    研究人员开发了一种分析解决方案,以理解伙伴选择如何影响面临社会困境的多智能体系统中的合作。他们的研究侧重于策略梯度动力学,表明伙伴选择通过改变对手分布来改变奖励格局,从而促进合作。研究结果表明,种群方差是合作出现的关键因素,并且已经推导出了促进合作的种群的充分条件。