PulseAugur
实时 01:26:07
实体 Offline RL

Offline RL

PulseAugur coverage of Offline RL — every cluster mentioning Offline RL across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_50951 ·

    新的GORMPO算法通过生成式密度建模改进离线强化学习

    研究人员开发了一种新的离线强化学习算法,称为生成式分布外正则化基于模型的策略优化(GORMPO)。该方法集成了生成模型来显式地对稀疏状态-动作空间中的密度进行建模,旨在防止策略采取分布外动作。GORMPO将策略更新限制在数据集的高密度区域,并在真实世界医疗数据集上比现有基线提高了17%的性能。

  2. TOOL · CL_42103 ·

    Offline RL training on logs can be deceptive, study finds

    Training AI models using production logs can be misleading, as a recent exploration into offline Reinforcement Learning (RL) revealed. The study found that relying solely on logged data can result in models that appear …