PulseAugur
实时 13:26:27
实体 LunarLander-v2

LunarLander-v2

PulseAugur coverage of LunarLander-v2 — every cluster mentioning LunarLander-v2 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_50927 ·

    PPO training stabilized by dropping redundant state transitions

    Researchers have developed a method to improve the stability of reinforcement learning training by randomly dropping a fraction of transitions from on-policy rollouts. This technique, applied to Proximal Policy Optimiza…

  2. TOOL · CL_44990 ·

    新架构改进多时间尺度强化学习

    研究人员开发了一种名为Target Decoupling的新架构,以解决多时间尺度强化学习中的问题。该方法分离短期和长期信号以改进策略更新,防止了代理目标攻击和策略崩溃等常见问题。在LunarLander-v2环境上的实验表明,与现有方法相比,性能显著提高,方差减小。