实体 Q-learning with Adjoint Matching

Q-learning with Adjoint Matching

PulseAugur coverage of Q-learning with Adjoint Matching — every cluster mentioning Q-learning with Adjoint Matching across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

论文 2
其他 2

时间线

2026-05-20 research_milestone A new paper introduces the Q-learning with Adjoint Matching (QAM) algorithm for continuous-action reinforcement learning. 来源

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_53549 · May 26 · 14:28

新TRQAM算法稳定离线强化学习

一篇新论文介绍了一种名为Trust Region Q-Adjoint Matching (TRQAM)的算法，该算法旨在稳定预训练流策略的离线强化学习。TRQAM通过自适应地控制路径空间KL散度，解决了先前Q-learning with Adjoint Matching (QAM)方法中固有的不稳定性与模型崩溃问题。在50个OGBench任务上的实验表明，TRQAM显著优于现有方法，在离线RL中的成功率达到68%，而基线为46%。
TOOL · CL_40019 · May 20 · 04:00

新的Q学习算法使用伴随匹配进行连续动作强化学习

研究人员推出了一种名为Q-learning with Adjoint Matching (QAM)的新型强化学习算法，该算法专为连续动作环境设计。QAM通过使用伴随匹配来稳定基于梯度的优化过程，解决了优化表达性扩散或流匹配策略的难题。该方法避免了不稳定的反向传播，并提供了一个无偏策略，在稀疏奖励的任务中表现优于现有方法。

新TRQAM算法稳定离线强化学习

新的Q学习算法使用伴随匹配进行连续动作强化学习