PulseAugur
实时 12:56:25
实体 Andrew Wagenmaker

Andrew Wagenmaker

PulseAugur coverage of Andrew Wagenmaker — every cluster mentioning Andrew Wagenmaker across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_105049 ·

    新的强化学习方法使用成功访问匹配实现更快的学习

    研究人员开发了一种新颖的方法来解决强化学习(RL)中稀疏奖励的挑战。他们的方法包括训练一个判别器来区分成功的和不成功的任务回合。然后,该判别器会激励RL策略模仿成功回合的状态-动作访问,同时避免不成功回合的状态-动作访问,从而提供更密集的反馈以实现更快的学习。与传统的稀疏奖励最大化方法相比,该方法在模拟和现实世界的机器人操作任务上都显著提高了RL微调性能。