实体
Trust Region Q Adjoint Matching
Trust Region Q Adjoint Matching
PulseAugur coverage of Trust Region Q Adjoint Matching — every cluster mentioning Trust Region Q Adjoint Matching across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 2 条
-
新TRQAM算法稳定离线强化学习
一篇新论文介绍了一种名为Trust Region Q-Adjoint Matching (TRQAM)的算法,该算法旨在稳定预训练流策略的离线强化学习。TRQAM通过自适应地控制路径空间KL散度,解决了先前Q-learning with Adjoint Matching (QAM)方法中固有的不稳定性与模型崩溃问题。在50个OGBench任务上的实验表明,TRQAM显著优于现有方法,在离线RL中的成功率达到68%,而基线为46%。
-
新的TRQAM算法稳定离策略强化学习
研究人员开发了信任区域Q-伴随匹配(TRQAM),这是一种旨在稳定离策略强化学习的新型算法。TRQAM通过使用投影对偶下降自适应地控制策略的KL散度来解决不稳定性问题。在50个OGBench任务上的实验表明,TRQAM表现优越,在离线RL中的成功率为68%,而基线方法的成功率为46%。