研究人员开发了一个名为WA*的新型自改进规划框架,该框架将由关系图神经网络表示的价值启发式与Q学习相结合。这种方法指导搜索并利用结果数据来更新启发式,使其能够充当通用策略。该框架展示了强大的零样本泛化能力,无需搜索即可解决新的问题实例,这在稀疏奖励域中是传统深度强化学习方法的一项重大进步。该系统已在Sokoban、PushWorld、The Witness和2023年国际规划竞赛等基准测试中取得成功。 AI
影响 在规划任务中实现了强大的零样本泛化,有可能克服当前DRL方法的局限性。
排序理由 该集群包含一篇详细介绍新AI研究框架及其在基准测试中性能的学术论文。
- 2023 International Planning Competition
- Blocksworld
- Deep Reinforcement Learning
- PushWorld
- Q-learning
- Sokoban
- The Witness
- WA*
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →