PulseAugur
实时 23:18:29
English(EN) Generative OOD-regularized Model-based Policy Optimization

新的GORMPO算法通过生成式密度建模改进离线强化学习

研究人员开发了一种新的离线强化学习算法,称为生成式分布外正则化基于模型的策略优化(GORMPO)。该方法集成了生成模型来显式地对稀疏状态-动作空间中的密度进行建模,旨在防止策略采取分布外动作。GORMPO将策略更新限制在数据集的高密度区域,并在真实世界医疗数据集上比现有基线提高了17%的性能。 AI

影响 通过利用生成模型来避免分布外动作,为更安全的离线强化学习引入了一种新颖的方法。

排序理由 该集群包含一篇详细介绍离线强化学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Aysin Tumay, Jiahe Huang, Elise Jortberg, Rose Yu ·

    Generative OOD-regularized Model-based Policy Optimization

    arXiv:2605.24405v1 Announce Type: cross Abstract: We study sequential decision-making with offline reinforcement learning (RL). Traditional offline RL policies may result in out-of-distribution (OOD) actions when training relies only on sparse offline representations. To ensure s…