English(EN) Model-based Bootstrap of Controlled Markov Chains

新的自举法增强了离线强化学习分析

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-12 17:05

研究人员开发了一种新的基于模型的受控马尔可夫链自举法，特别适用于数据生成策略未知的离线强化学习场景。该技术为转移估计器建立了分布一致性，并扩展到策略评估和恢复，为价值函数和Q函数提供渐近有效的置信区间。在RiverSwim问题上的实验结果表明，与现有方法相比，所提出的置信区间在有限数据下提供了更好的校准和覆盖率。 AI

影响提高了离线强化学习的置信区间校准，有助于更可靠的策略评估和恢复。

排序理由该集群包含一篇学术论文，详细介绍了一种用于受控马尔可夫链的新统计方法，与强化学习相关。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv stat.ML TIER_1 English(EN) · Ziwei Su, Imon Banerjee, Diego Klabjan · 2026-05-13 04:00

受控马尔可夫链的基于模型的自举法

arXiv:2605.12410v1 Announce Type: new Abstract: We propose and analyze a model-based bootstrap for transition kernels in finite controlled Markov chains (CMCs) with possibly nonstationary or history-dependent control policies, a setting that arises naturally in offline reinforcem…
arXiv stat.ML TIER_1 English(EN) · Diego Klabjan · 2026-05-12 17:05

受控马尔可夫链的基于模型的自举法

We propose and analyze a model-based bootstrap for transition kernels in finite controlled Markov chains (CMCs) with possibly nonstationary or history-dependent control policies, a setting that arises naturally in offline reinforcement learning (RL) when the behavior policy gener…

报道来源 [2]

受控马尔可夫链的基于模型的自举法

受控马尔可夫链的基于模型的自举法

相关实体

相关话题