English(EN) AdamO: A Collapse-Suppressed Optimizer for Offline RL

新的AdamO优化器增强了离线强化学习的稳定性和性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员推出了一种名为AdamO的新型优化器，旨在增强离线强化学习的稳定性。该优化器解决了“崩溃”问题，即时序差分更新中的错误可能导致Q值极端且不可用。AdamO通过引入正交约束来防止TD误差的放大，理论上保证了任务安全，同时保持了Adam的连续时间耗散动力学。实证结果表明，当与现有基线集成时，AdamO在各种离线强化学习基准测试中提高了稳定性和性能。 AI

影响引入了一种新的优化器，提高了离线强化学习任务的稳定性和性能。

排序理由这是一篇详细介绍针对特定机器学习问题的新优化技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Nan Qiao, Sheng Yue, Shuning Wang, Ju Ren · 2026-05-05 04:00

AdamO：一种抑制崩溃的离线强化学习优化器

arXiv:2605.01968v1 Announce Type: new Abstract: Offline reinforcement learning (RL) can fail spectacularly when bootstrapped temporal-difference (TD) updates amplify their own errors, driving the critic toward extreme and unusable Q-values. A key counterintuitive insight of this …

报道来源 [1]

AdamO：一种抑制崩溃的离线强化学习优化器

相关实体

相关话题