研究人员为外生上下文马尔可夫决策过程(MDP)中的学习开发了新的minimax PAC界限。该研究侧重于具有外生、独立同分布(i.i.d.)上下文的表格折扣MDP,这些上下文会影响奖励和转移。所提出的算法在策略评估、最佳值估计和最佳策略提取方面提供了改进的样本复杂度,其速率独立于上下文空间大小且是minimax最优的。 AI
影响 为复杂序贯决策环境中的学习建立了理论界限,有可能在不确定、依赖上下文的场景中提高AI代理的能力。
排序理由 该集群包含一篇详细介绍马尔可夫决策过程机器学习理论进展的研究论文。
- best-policy extraction
- best-value estimation
- Exogenous contextual MDPs
- Markov decision processes
- one-step perfect look-ahead
- Policy Evaluation
- tabular discounted Markov decision processes
- variance-reduced algorithm
- probably approximately correct learning
- sampling oracles
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →