Value Explicit Pretraining 学习可迁移表征以用于强化学习智能体

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-04 04:00

研究人员开发了一种名为价值显式预训练（VEP）的新方法，旨在提高视觉强化学习中表征的可迁移性。VEP 利用次优的、未标记的演示数据来训练一个编码器，该编码器学习对环境动态和外观变化不变的表征。这种方法可以更有效地学习与先前遇到的任务具有相似目标的新任务。在包括 Ant 运动、导航模拟器和 Atari 游戏在内的各种基准测试中进行的实验表明，VEP 在泛化到未见过的任务方面显著优于现有的预训练方法，在奖励方面提高了两倍，在样本效率方面提高了三倍。 AI

影响增强了视觉强化学习中的泛化能力和样本效率，有望加速智能体适应新任务。

排序理由这是一篇详细介绍强化学习新方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Kiran Lekkala, Henghui Bao, Sumedh A. Sontakke, Erdem Biyik, Laurent Itti · 2026-05-04 04:00

Value Explicit Pretraining for Learning Transferable Representations

arXiv:2312.12339v3 Announce Type: replace Abstract: Understanding visual inputs for a given task amidst varied changes is a key challenge posed by visual reinforcement learning agents. We propose \textit{Value Explicit Pretraining} (VEP), a method that learns generalizable repres…

报道来源 [1]

Value Explicit Pretraining for Learning Transferable Representations

相关实体

相关话题