English(EN) Robust Parameter Learning for Uncertain MDPs

新方法学习不确定性MDP，参数估计更精确

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了一种新的马尔可夫决策过程（MDP）模型学习方法，该方法考虑了转移概率之间的依赖关系。该方法使用参数化MDP（pMDP）将转移概率表示为共享参数的函数，从而实现更准确的不确定性量化。所提出的技术将统计不确定性投影到参数空间，创建了一个可能近似正确（PAC）的不确定性模型，该模型尊重代数依赖关系，与传统方法相比，不确定性估计更精确。 AI

影响引入了一种更鲁棒的决策过程不确定性建模方法，可能改进强化学习代理。

排序理由这是一篇详细介绍学习不确定性MDP新方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yannik Schnitzer, Alessandro Abate, David Parker · 2026-05-05 04:00

Robust Parameter Learning for Uncertain MDPs

arXiv:2605.01339v1 Announce Type: new Abstract: Learning-based approaches to verifying unknown Markov decision processes (MDPs) often employ uncertain MDPs. These models use, for example, confidence intervals to capture transition uncertainty and allow synthesis of policies that …

报道来源 [1]

Robust Parameter Learning for Uncertain MDPs

相关实体

相关话题