研究人员开发了一种新的离线强化学习方法,该方法利用动力学系统的对称性来提高样本效率。该方法使用对称数据增强来增强深度确定性策略梯度算法中的状态-动作空间覆盖率。具有一个在增强样本上训练的批评者的双批评者结构进一步提高了样本利用率,从而在模拟中实现了更快的策略收敛,尤其是在飞机姿态控制方面。 AI
影响 引入了一种新颖的强化学习数据增强技术,有望提高控制系统的样本效率。
排序理由 这是一篇详细介绍强化学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →