新的长时Q学习方法提高了强化学习的准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员推出了一种名为长时Q学习（LQL）的新方法，旨在提高基于价值的强化学习的稳定性。LQL通过引入基于不等式的后备机制来解决传统Q学习中估计误差累积的问题。该方法利用现有网络输出来惩罚违反从观察到的动作序列推导出的界限的行为，从而避免了额外的计算开销。实验表明，LQL在各种基准测试中始终优于标准的1步和n步TD学习。 AI

影响引入了一种稳定强化学习的方法，有可能提高智能体在复杂、长时任务中的性能。

排序理由这是一篇详细介绍强化学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Armaan A. Abraham, Lucy Xiaoyang Shi, Chelsea Finn · 2026-05-08 04:00

Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities

arXiv:2605.05812v1 Announce Type: new Abstract: Off-policy, value-based reinforcement learning methods such as Q-learning are appealing because they can learn from arbitrary experience, including data collected by older policies or other agents. In practice, however, bootstrappin…

报道来源 [1]

Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities

相关实体

相关话题