PulseAugur
实时 06:25:36
English(EN) Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

新算法为MDP提供数据和方差依赖的遗憾界限

研究人员为在线表格马尔可夫决策过程(MDP)开发了新的算法,提供了改进的遗憾界限。这些算法在对抗性设置中适应数据依赖的度量,在随机性设置中适应方差依赖的度量。该工作引入了新颖的复杂性度量和乐观优化技术,实现了接近最优的遗憾界限。 AI

影响 为强化学习算法引入了更精细的理论界限,有可能提高智能体在复杂环境中的性能。

排序理由 该集群包含一篇学术论文,详细介绍了针对特定机器学习问题的新算法和理论界限。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv stat.ML TIER_1 English(EN) · Mingyi Li, Taira Tsuchiya, Kenji Yamanishi ·

    Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

    arXiv:2602.01903v2 Announce Type: replace-cross Abstract: This work studies online episodic tabular Markov decision processes (MDPs) with known transitions and develops best-of-both-worlds algorithms that achieve refined data-dependent regret bounds in the adversarial regime and …