研究人员开发了一种名为价值显式预训练(VEP)的新方法,旨在提高视觉强化学习中表征的可迁移性。VEP 利用次优的、未标记的演示数据来训练一个编码器,该编码器学习对环境动态和外观变化不变的表征。这种方法可以更有效地学习与先前遇到的任务具有相似目标的新任务。在包括 Ant 运动、导航模拟器和 Atari 游戏在内的各种基准测试中进行的实验表明,VEP 在泛化到未见过的任务方面显著优于现有的预训练方法,在奖励方面提高了两倍,在样本效率方面提高了三倍。 AI
影响 增强了视觉强化学习中的泛化能力和样本效率,有望加速智能体适应新任务。
排序理由 这是一篇详细介绍强化学习新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →