实体 LunarLander-v2

LunarLander-v2

PulseAugur coverage of LunarLander-v2 — every cluster mentioning LunarLander-v2 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_50927 · May 26 · 04:00

通过丢弃冗余状态转移来稳定PPO训练

研究人员开发了一种通过从同策略（on-policy）的rollout中随机丢弃一部分转移来提高强化学习训练稳定性的方法。该技术应用于Proximal Policy Optimization (PPO)，打破了由因果链式状态引起的重复梯度结构。通过丢弃约25%的转移，该方法在保持奖励性能的同时，在各种指标上产生了更一致的训练动态。
TOOL · CL_44990 · May 22 · 04:00

新架构改进多时间尺度强化学习

研究人员开发了一种名为Target Decoupling的新架构，以解决多时间尺度强化学习中的问题。该方法分离短期和长期信号以改进策略更新，防止了代理目标攻击和策略崩溃等常见问题。在LunarLander-v2环境上的实验表明，与现有方法相比，性能显著提高，方差减小。
TOOL · CL_52235 · May 21 · 00:00

新RL架构解决多时间尺度信号病理问题

研究人员在多时间尺度强化学习中，当结合短期和长期信号时，发现了算法病理问题。他们提出了一种目标解耦架构，将Critic中的时间预测与Actor中的策略更新分离开来。据报道，通过防止代理目标攻击和近视退化等问题，该方法在延迟奖励环境中取得了卓越的性能。