研究人员开发了QHyer,一种用于离线目标条件强化学习的新方法,解决了部分可观察和历史依赖数据集带来的挑战。QHyer利用Q估计器指导策略拼接,并采用混合注意力-Mamba骨干进行自适应历史压缩。实验表明,QHyer在非马尔可夫和马尔可夫数据集上均取得了最先进的性能。 AI
影响 为目标条件强化学习引入了一种新方法,提高了在复杂数据集上的性能。
排序理由 这是一篇详细介绍强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →