PulseAugur
实时 14:05:04

用于外生上下文MDP学习的新minimax PAC界限

研究人员为外生上下文马尔可夫决策过程(MDP)中的学习开发了新的minimax PAC界限。该研究侧重于具有外生、独立同分布(i.i.d.)上下文的表格折扣MDP,这些上下文会影响奖励和转移。所提出的算法在策略评估、最佳值估计和最佳策略提取方面提供了改进的样本复杂度,其速率独立于上下文空间大小且是minimax最优的。 AI

影响 为复杂序贯决策环境中的学习建立了理论界限,有可能在不确定、依赖上下文的场景中提高AI代理的能力。

排序理由 该集群包含一篇详细介绍马尔可夫决策过程机器学习理论进展的研究论文。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

用于外生上下文MDP学习的新minimax PAC界限

报道来源 [2]

  1. arXiv stat.ML TIER_1 English(EN) · Corentin Pla, Hugo Richard, Marc Abeille, Vianney Perchet ·

    Minimax PAC 边界用于外生上下文 MDP 中的学习

    arXiv:2606.25170v1 Announce Type: new Abstract: We study PAC learning in tabular discounted Markov decision processes with exogenous i.i.d. contexts, with discount factor $\gamma$, finite state space $\mathcal X$, action space $\mathcal A$, and context space $\mathcal Z$. At each…

  2. arXiv stat.ML TIER_1 English(EN) · Vianney Perchet ·

    Minimax PAC 边界用于外生上下文马尔可夫决策过程中的学习

    We study PAC learning in tabular discounted Markov decision processes with exogenous i.i.d. contexts, with discount factor $γ$, finite state space $\mathcal X$, action space $\mathcal A$, and context space $\mathcal Z$. At each time step, a context is drawn independently from an …