PulseAugur
实时 17:04:55
实体 Value Explicit Pretraining

Value Explicit Pretraining

PulseAugur coverage of Value Explicit Pretraining — every cluster mentioning Value Explicit Pretraining across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14420 ·

    Value Explicit Pretraining 学习可迁移表征以用于强化学习智能体

    研究人员开发了一种名为价值显式预训练(VEP)的新方法,旨在提高视觉强化学习中表征的可迁移性。VEP 利用次优的、未标记的演示数据来训练一个编码器,该编码器学习对环境动态和外观变化不变的表征。这种方法可以更有效地学习与先前遇到的任务具有相似目标的新任务。在包括 Ant 运动、导航模拟器和 Atari 游戏在内的各种基准测试中进行的实验表明,VEP 在泛化到未见过的任务方面显著优于现有的预训练方法,在奖励方面提高了两倍,在样本效率方面提高了三倍。