一篇新研究论文探讨了各种循环神经网络架构和强化学习算法在航天器近距离操作中自适应安全关键控制的有效性。该研究特别比较了长短期记忆(LSTM)、门控循环单元(GRU)和选择性状态空间模型(Mamba)网络,以及近端策略优化(PPO)和软Actor-Critic(SAC)训练算法。结果表明,Mamba 与 PPO 结合,即使在对抗性场景下,在任务完成、安全性和燃油效率方面也表现出卓越的性能。 AI
影响 展示了先进人工智能控制系统在安全关键航空航天应用中的潜力。
排序理由 学术论文发布在 arXiv 上,详细介绍了元强化学习的新颖应用。[lever_c_demoted from research: ic=1 ai=1.0]
- gated recurrent unit
- long short-term memory
- Mamba
- Minduli Wijayatunga
- Proximal Policy Optimization
- Selective State Space Model
- SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →