PulseAugur
实时 20:02:30
实体 CVaR MDPs

CVaR MDPs

PulseAugur coverage of CVaR MDPs — every cluster mentioning CVaR MDPs across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_119583 ·

    新的 CVaR MDP 公式通过 Bellman 算子增强了风险敏感策略学习

    研究人员开发了一种新颖的马尔可夫决策过程 (MDP) 静态条件风险价值 (CVaR) 目标公式,以更好地处理安全关键应用中的尾部风险。他们的方法引入了一个 Bellman 算子,该算子提供密集的每步奖励,并在有界值函数的整个空间中表现出收缩特性,从而避免了先前方法的稀疏奖励和退化不动点。这一理论基础使得风险规避值迭代和无模型 Q-学习算法得以发展,这些算法在实证测试中已证明了有效的性能-安全权衡以及学习 CVaR 敏感策略的能力。