实体 Acrobot-v1

Acrobot-v1

PulseAugur coverage of Acrobot-v1 — every cluster mentioning Acrobot-v1 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_50927 · May 26 · 04:00

通过丢弃冗余状态转移来稳定PPO训练

研究人员开发了一种通过从同策略（on-policy）的rollout中随机丢弃一部分转移来提高强化学习训练稳定性的方法。该技术应用于Proximal Policy Optimization (PPO)，打破了由因果链式状态引起的重复梯度结构。通过丢弃约25%的转移，该方法在保持奖励性能的同时，在各种指标上产生了更一致的训练动态。