实体 TD updates

TD updates

PulseAugur coverage of TD updates — every cluster mentioning TD updates across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_22473 · May 8 · 04:00

新的长时Q学习方法提高了强化学习的准确性

研究人员推出了一种名为长时Q学习（LQL）的新方法，旨在提高基于价值的强化学习的稳定性。LQL通过引入基于不等式的后备机制来解决传统Q学习中估计误差累积的问题。该方法利用现有网络输出来惩罚违反从观察到的动作序列推导出的界限的行为，从而避免了额外的计算开销。实验表明，LQL在各种基准测试中始终优于标准的1步和n步TD学习。
TOOL · CL_16081 · May 5 · 04:00

新的AdamO优化器增强了离线强化学习的稳定性和性能

研究人员推出了一种名为AdamO的新型优化器，旨在增强离线强化学习的稳定性。该优化器解决了“崩溃”问题，即时序差分更新中的错误可能导致Q值极端且不可用。AdamO通过引入正交约束来防止TD误差的放大，理论上保证了任务安全，同时保持了Adam的连续时间耗散动力学。实证结果表明，当与现有基线集成时，AdamO在各种离线强化学习基准测试中提高了稳定性和性能。