PulseAugur
实时 12:24:24
实体 GORMPO

GORMPO

PulseAugur coverage of GORMPO — every cluster mentioning GORMPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_50951 ·

    新的GORMPO算法通过生成式密度建模改进离线强化学习

    研究人员开发了一种新的离线强化学习算法,称为生成式分布外正则化基于模型的策略优化(GORMPO)。该方法集成了生成模型来显式地对稀疏状态-动作空间中的密度进行建模,旨在防止策略采取分布外动作。GORMPO将策略更新限制在数据集的高密度区域,并在真实世界医疗数据集上比现有基线提高了17%的性能。