PulseAugur
实时 18:03:20
English(EN) Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity

新的 CVaR MDP 公式通过 Bellman 算子增强了风险敏感策略学习

研究人员开发了一种新颖的马尔可夫决策过程 (MDP) 静态条件风险价值 (CVaR) 目标公式,以更好地处理安全关键应用中的尾部风险。他们的方法引入了一个 Bellman 算子,该算子提供密集的每步奖励,并在有界值函数的整个空间中表现出收缩特性,从而避免了先前方法的稀疏奖励和退化不动点。这一理论基础使得风险规避值迭代和无模型 Q-学习算法得以发展,这些算法在实证测试中已证明了有效的性能-安全权衡以及学习 CVaR 敏感策略的能力。 AI

影响 增强了 AI 系统在安全关键应用中的风险敏感决策能力。

排序理由 学术论文,详细介绍了 CVaR MDP 的新颖理论公式和算法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 CVaR MDP 公式通过 Bellman 算子增强了风险敏感策略学习

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Aneri Muni, Vincent Taboga, Esther Derman, Pierre-Luc Bacon, Erick Delage ·

    Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity

    arXiv:2602.03778v2 Announce Type: replace-cross Abstract: Tail-end risk measures such as static conditional value-at-risk (CVaR) are used in safety-critical applications to prevent rare, yet catastrophic events. Unlike risk-neutral objectives, the static CVaR of the return depend…