English(EN) Online Learning in MDPs with Partially Adversarial Transitions and Losses

新算法解决了具有部分对抗性转移的强化学习问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了用于在具有部分对抗性转移的环境中进行强化学习的新算法。这些算法利用“条件占用度量”来维持跨回合的稳定性，即使在特定点面临对抗性行为时也是如此。与现有方法相比，所提出的方法实现了改进的遗憾界限，其中一种算法提供的遗憾减少消除了识别对抗性步骤的需要。 AI

影响为复杂环境中的强化学习引入了新颖的算法，有可能提高智能体在具有不可预测元素的场景中的性能。

排序理由这是一篇详细介绍特定机器学习问题新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Ofir Schlisselberg, Tal Lancewicki, Yishay Mansour · 2026-06-02 04:00

Online Learning in MDPs with Partially Adversarial Transitions and Losses

arXiv:2602.09474v2 Announce Type: replace Abstract: We study reinforcement learning in MDPs whose transition function is stochastic at most steps but may behave adversarially at a fixed subset of $\Lambda$ steps per episode. This model captures environments that are stable except…