English(EN) Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity

新的 CVaR MDP 公式通过 Bellman 算子增强了风险敏感策略学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

研究人员开发了一种新颖的马尔可夫决策过程 (MDP) 静态条件风险价值 (CVaR) 目标公式，以更好地处理安全关键应用中的尾部风险。他们的方法引入了一个 Bellman 算子，该算子提供密集的每步奖励，并在有界值函数的整个空间中表现出收缩特性，从而避免了先前方法的稀疏奖励和退化不动点。这一理论基础使得风险规避值迭代和无模型 Q-学习算法得以发展，这些算法在实证测试中已证明了有效的性能-安全权衡以及学习 CVaR 敏感策略的能力。 AI

影响增强了 AI 系统在安全关键应用中的风险敏感决策能力。

排序理由学术论文，详细介绍了 CVaR MDP 的新颖理论公式和算法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Aneri Muni, Vincent Taboga, Esther Derman, Pierre-Luc Bacon, Erick Delage · 2026-07-01 04:00

Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity

arXiv:2602.03778v2 Announce Type: replace-cross Abstract: Tail-end risk measures such as static conditional value-at-risk (CVaR) are used in safety-critical applications to prevent rare, yet catastrophic events. Unlike risk-neutral objectives, the static CVaR of the return depend…

报道来源 [1]

Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity

相关实体

相关话题