English(EN) One-Step Bellman Alignment Enables Provably Efficient Transfer in Online RL

新的强化学习方法通过贝尔曼对齐改进迁移学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员引入了一种名为一步贝尔曼对齐（RWT）的新方法，以改进在线强化学习中的迁移学习。该技术解决了在学习新目标任务时使用相关源任务数据所带来的挑战，这些数据可能引入偏差并使性能保证失效。RWT 纠正了任务转换中的不匹配，从而能够对源数据进行统计上有效的重用，并带来改进的遗憾界限，尤其是在使用 RKHS 等复杂函数逼近时。在表格和神经网络设置中的实证结果表明，RWT 的性能优于单任务学习和朴素数据池化。 AI

影响提高了强化学习中迁移学习的效率，有可能加速跨相关任务的智能体训练。

排序理由这是一篇详细介绍强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Elynn Chen, Enpei Zhang, Jinhang Chai, Yujun Yan · 2026-05-26 04:00

一步贝尔曼对齐实现可证明高效的在线强化学习迁移

arXiv:2601.21924v2 Announce Type: replace Abstract: We study online transfer reinforcement learning (RL) in episodic Markov decision processes, where experience from related source tasks is available during learning on a target task. A fundamental difficulty is that task similari…

报道来源 [1]

一步贝尔曼对齐实现可证明高效的在线强化学习迁移

相关实体

相关话题