实体
LunarLander-v2
LunarLander-v2
PulseAugur coverage of LunarLander-v2 — every cluster mentioning LunarLander-v2 across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
PPO training stabilized by dropping redundant state transitions
Researchers have developed a method to improve the stability of reinforcement learning training by randomly dropping a fraction of transitions from on-policy rollouts. This technique, applied to Proximal Policy Optimiza…
-
新架构改进多时间尺度强化学习
研究人员开发了一种名为Target Decoupling的新架构,以解决多时间尺度强化学习中的问题。该方法分离短期和长期信号以改进策略更新,防止了代理目标攻击和策略崩溃等常见问题。在LunarLander-v2环境上的实验表明,与现有方法相比,性能显著提高,方差减小。