研究人员开发了一种用于均值场控制问题的鲁棒 Q 学习算法。该算法专门处理公共噪声定律中存在 Wasserstein 不确定性的场景。它结合了量化-投影方案和 Wasserstein 对偶重构,论文为同步和异步学习方法建立了收敛保证和有限时间迭代界限。数值实验证明了该算法在系统性风险和流行病模型上的性能,突显了其对公共噪声误设的鲁棒性。 AI
影响 为复杂的控制问题引入了一种新颖的算法方法,可能影响需要不确定性下鲁棒决策的领域。
排序理由 详细介绍新算法及其理论保证的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →