一篇新论文介绍了一种名为Trust Region Q-Adjoint Matching (TRQAM)的算法,该算法旨在稳定预训练流策略的离线强化学习。TRQAM通过自适应地控制路径空间KL散度,解决了先前Q-learning with Adjoint Matching (QAM)方法中固有的不稳定性与模型崩溃问题。在50个OGBench任务上的实验表明,TRQAM显著优于现有方法,在离线RL中的成功率达到68%,而基线为46%。 AI
影响 TRQAM为离线强化学习提供了一种更稳定的方法,有望提高复杂任务的性能,并实现对预训练模型更可靠的微调。
排序理由 该集群包含一篇详细介绍强化学习新算法的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →