English(EN) Q-Learning with Fine-Grained Gap-Dependent Regret

新的Q学习算法提供细粒度的遗憾界限

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了新的Q学习算法，可在片段式表格马尔可夫决策过程中提供更精确的遗憾界限。这些进展通过提供细粒度的、依赖于间隙的遗憾保证，解决了现有方法的局限性。该研究引入了一个新颖的分析框架，并提出了新的算法ULCB-Hoeffding和改进的AMB，它们展示了改进的性能和理论严谨性。 AI

排序理由该集群包含一篇学术论文，详细介绍了强化学习中的新算法和理论发现。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Haochen Zhang, Zhong Zheng, Lingzhou Xue · 2026-06-16 04:00

Q-Learning with Fine-Grained Gap-Dependent Regret

arXiv:2510.06647v2 Announce Type: replace-cross Abstract: We study fine-grained gap-dependent regret bounds for model-free reinforcement learning in episodic tabular Markov Decision Processes. Existing model-free algorithms achieve minimax worst-case regret, but their gap-depende…