实体 n-step TD learning

n-step TD learning

PulseAugur coverage of n-step TD learning — every cluster mentioning n-step TD learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
其他 1

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_22473 · May 8 · 04:00

新的长时Q学习方法提高了强化学习的准确性

研究人员推出了一种名为长时Q学习（LQL）的新方法，旨在提高基于价值的强化学习的稳定性。LQL通过引入基于不等式的后备机制来解决传统Q学习中估计误差累积的问题。该方法利用现有网络输出来惩罚违反从观察到的动作序列推导出的界限的行为，从而避免了额外的计算开销。实验表明，LQL在各种基准测试中始终优于标准的1步和n步TD学习。

新的长时Q学习方法提高了强化学习的准确性