研究人员开发了一种新颖的马尔可夫决策过程 (MDP) 静态条件风险价值 (CVaR) 目标公式,以更好地处理安全关键应用中的尾部风险。他们的方法引入了一个 Bellman 算子,该算子提供密集的每步奖励,并在有界值函数的整个空间中表现出收缩特性,从而避免了先前方法的稀疏奖励和退化不动点。这一理论基础使得风险规避值迭代和无模型 Q-学习算法得以发展,这些算法在实证测试中已证明了有效的性能-安全权衡以及学习 CVaR 敏感策略的能力。 AI
影响 增强了 AI 系统在安全关键应用中的风险敏感决策能力。
排序理由 学术论文,详细介绍了 CVaR MDP 的新颖理论公式和算法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →