PulseAugur
实时 22:20:24
实体 Brett Barkley

Brett Barkley

PulseAugur coverage of Brett Barkley — every cluster mentioning Brett Barkley across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_22081 ·

    研究人员修复强化学习策略优化中的合成数据故障

    研究人员已识别并解决了基于模型的策略优化(MBPO)中的算法故障,MBPO是强化学习中使用的技术。研究发现,MBPO与Soft Actor-Critic(SAC)等其他方法相比,由于尺度不匹配和残差下一状态预测,可能表现不佳,这会导致Critic低估和不可靠的合成数据。引入了一种名为Fixing That Free Lunch(FTFL)的新方法,该方法结合了目标归一化和直接下一状态预测来解决这些问题,在多个基准任务上表现得到改善。