一篇新发表在arXiv上的研究论文探讨了无模型强化学习(RL)控制器在增强网络物理系统抵御网络攻击韧性方面的有效性。该研究分析了四种RL奖励类型,发现Lyapunov奖励在最小化跟踪误差的同时提供了卓越的韧性。近端策略优化(PPO)的表现优于深度确定性策略梯度(DDPG),显著降低了关键绩效指标的方差。 AI
影响 这项研究可能带来更强大的AI驱动型安全措施,用于关键基础设施和工业控制系统。
排序理由 该集群包含一篇在arXiv上发表的研究论文,详细介绍了网络物理系统强化学习的新发现。
- arXiv
- Deep Deterministic Policy Gradient
- Proximal Policy Optimization
- RL-MPCs
- RL-PID
- Lyapunov reward
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →