研究人员推出ROMI,一种用于基于模型的离线强化学习的新方法,解决了对抗模型学习中的关键挑战。与RAMBO等先前方法不同,RAMBO因模型梯度而在控制保守性和训练稳定性方面遇到困难,ROMI采用了一个鲁棒的、感知价值的学习框架。该框架使用隐式可微的自适应加权机制来平衡价值保守性和分布外泛化。在D4RL和NeoRL基准上的实验表明,ROMI显著优于RAMBO,并能媲美或超越最先进的无模型和惩罚模型方法。 AI
影响 这项研究为离线强化学习提供了一种更稳定、更可控的方法,有望提高实际应用中的样本效率和泛化能力。
排序理由 该集群描述了一篇详细介绍离线强化学习新算法(ROMI)的研究论文,该论文在一个主要的机器学习会议上发表。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →