English(EN) Generative OOD-regularized Model-based Policy Optimization

新的GORMPO算法通过生成式密度建模改进离线强化学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了一种新的离线强化学习算法，称为生成式分布外正则化基于模型的策略优化（GORMPO）。该方法集成了生成模型来显式地对稀疏状态-动作空间中的密度进行建模，旨在防止策略采取分布外动作。GORMPO将策略更新限制在数据集的高密度区域，并在真实世界医疗数据集上比现有基线提高了17%的性能。 AI

影响通过利用生成模型来避免分布外动作，为更安全的离线强化学习引入了一种新颖的方法。

排序理由该集群包含一篇详细介绍离线强化学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Aysin Tumay, Jiahe Huang, Elise Jortberg, Rose Yu · 2026-05-26 04:00

Generative OOD-regularized Model-based Policy Optimization

arXiv:2605.24405v1 Announce Type: cross Abstract: We study sequential decision-making with offline reinforcement learning (RL). Traditional offline RL policies may result in out-of-distribution (OOD) actions when training relies only on sparse offline representations. To ensure s…

报道来源 [1]

Generative OOD-regularized Model-based Policy Optimization

相关实体

相关话题