实体 Brett Barkley

Brett Barkley

PulseAugur coverage of Brett Barkley — every cluster mentioning Brett Barkley across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_22081 · May 8 · 04:00

研究人员修复强化学习策略优化中的合成数据故障

研究人员已识别并解决了基于模型的策略优化（MBPO）中的算法故障，MBPO是强化学习中使用的技术。研究发现，MBPO与Soft Actor-Critic（SAC）等其他方法相比，由于尺度不匹配和残差下一状态预测，可能表现不佳，这会导致Critic低估和不可靠的合成数据。引入了一种名为Fixing That Free Lunch（FTFL）的新方法，该方法结合了目标归一化和直接下一状态预测来解决这些问题，在多个基准任务上表现得到改善。