PulseAugur
实时 03:11:02
实体 Q-values

Q-values

PulseAugur coverage of Q-values — every cluster mentioning Q-values across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_16081 ·

    新的AdamO优化器增强了离线强化学习的稳定性和性能

    研究人员推出了一种名为AdamO的新型优化器,旨在增强离线强化学习的稳定性。该优化器解决了“崩溃”问题,即时序差分更新中的错误可能导致Q值极端且不可用。AdamO通过引入正交约束来防止TD误差的放大,理论上保证了任务安全,同时保持了Adam的连续时间耗散动力学。实证结果表明,当与现有基线集成时,AdamO在各种离线强化学习基准测试中提高了稳定性和性能。