English(EN) Deep deterministic policy gradient with symmetric data augmentation for lateral attitude tracking control of a fixed-wing aircraft

强化学习利用对称性和数据增强实现更快的飞机控制

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-06 04:00

研究人员开发了一种新的离线强化学习方法，该方法利用动力学系统的对称性来提高样本效率。该方法使用对称数据增强来增强深度确定性策略梯度算法中的状态-动作空间覆盖率。具有一个在增强样本上训练的批评者的双批评者结构进一步提高了样本利用率，从而在模拟中实现了更快的策略收敛，尤其是在飞机姿态控制方面。 AI

影响引入了一种新颖的强化学习数据增强技术，有望提高控制系统的样本效率。

排序理由这是一篇详细介绍强化学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yifei Li, Erik-Jan van Kampen · 2026-05-06 04:00

用于固定翼飞机侧向姿态跟踪控制的具有对称数据增强的深度确定性策略梯度

arXiv:2407.11077v4 Announce Type: replace Abstract: The symmetry of dynamical systems can be exploited for state-transition prediction and to facilitate control policy optimization. This paper leverages system symmetry to develop sample-efficient offline reinforcement learning (R…