English(EN) Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

新算法为MDP提供数据和方差依赖的遗憾界限

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员为在线表格马尔可夫决策过程（MDP）开发了新的算法，提供了改进的遗憾界限。这些算法在对抗性设置中适应数据依赖的度量，在随机性设置中适应方差依赖的度量。该工作引入了新颖的复杂性度量和乐观优化技术，实现了接近最优的遗憾界限。 AI

影响为强化学习算法引入了更精细的理论界限，有可能提高智能体在复杂环境中的性能。

排序理由该集群包含一篇学术论文，详细介绍了针对特定机器学习问题的新算法和理论界限。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Mingyi Li, Taira Tsuchiya, Kenji Yamanishi · 2026-06-03 04:00

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

arXiv:2602.01903v2 Announce Type: replace-cross Abstract: This work studies online episodic tabular Markov decision processes (MDPs) with known transitions and develops best-of-both-worlds algorithms that achieve refined data-dependent regret bounds in the adversarial regime and …