研究人员开发了一种新的离线强化学习算法,称为生成式分布外正则化基于模型的策略优化(GORMPO)。该方法集成了生成模型来显式地对稀疏状态-动作空间中的密度进行建模,旨在防止策略采取分布外动作。GORMPO将策略更新限制在数据集的高密度区域,并在真实世界医疗数据集上比现有基线提高了17%的性能。 AI
影响 通过利用生成模型来避免分布外动作,为更安全的离线强化学习引入了一种新颖的方法。
排序理由 该集群包含一篇详细介绍离线强化学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- generative models
- Generative OOD-regularized Model-based Policy Optimization
- GORMPO
- offline RL
- reinforcement learning
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →