中文(ZH) GAIR Paper 105｜离线强化学习新突破——ROMI：破解对抗式模型学习「过保守、训不稳」深层困局｜ICLR 2026

新的ROMI方法推动离线强化学习发展，超越先前模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 06:42

研究人员推出ROMI，一种用于基于模型的离线强化学习的新方法，解决了对抗模型学习中的关键挑战。与RAMBO等先前方法不同，RAMBO因模型梯度而在控制保守性和训练稳定性方面遇到困难，ROMI采用了一个鲁棒的、感知价值的学习框架。该框架使用隐式可微的自适应加权机制来平衡价值保守性和分布外泛化。在D4RL和NeoRL基准上的实验表明，ROMI显著优于RAMBO，并能媲美或超越最先进的无模型和惩罚模型方法。 AI

影响这项研究为离线强化学习提供了一种更稳定、更可控的方法，有望提高实际应用中的样本效率和泛化能力。

排序理由该集群描述了一篇详细介绍离线强化学习新算法（ROMI）的研究论文，该论文在一个主要的机器学习会议上发表。 [lever_c_demoted from research: ic=1 ai=1.0]

在雷峰网 (Leiphone) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

雷峰网 (Leiphone) TIER_1 中文(ZH) · 2026-06-25 06:42

GAIR Paper 105 | New Breakthrough in Offline Reinforcement Learning - ROMI: Cracking the Deep Dilemma of Adversarial Model Learning 'Too Conservative, Unstable Training' | ICLR 2026

<section style="text-align: center; margin: 0px 16px; line-height: 1.75em; display: block;"><img class="rich_pages wxw-img" src="https://static.leiphone.com/uploads/new/images/20260625/6a3ccd6e04432.jpg?imageMogr2/quality/90" style="width: 100%; display: inline-block; text-align:…

报道来源 [1]

GAIR Paper 105 | New Breakthrough in Offline Reinforcement Learning - ROMI: Cracking the Deep Dilemma of Adversarial Model Learning 'Too Conservative, Unstable Training' | ICLR 2026

相关实体

相关话题