PulseAugur
实时 13:56:02
English(EN) Q-Learning with Fine-Grained Gap-Dependent Regret

新的Q学习算法提供细粒度的遗憾界限

研究人员开发了新的Q学习算法,可在片段式表格马尔可夫决策过程中提供更精确的遗憾界限。这些进展通过提供细粒度的、依赖于间隙的遗憾保证,解决了现有方法的局限性。该研究引入了一个新颖的分析框架,并提出了新的算法ULCB-Hoeffding和改进的AMB,它们展示了改进的性能和理论严谨性。 AI

排序理由 该集群包含一篇学术论文,详细介绍了强化学习中的新算法和理论发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Haochen Zhang, Zhong Zheng, Lingzhou Xue ·

    Q-Learning with Fine-Grained Gap-Dependent Regret

    arXiv:2510.06647v2 Announce Type: replace-cross Abstract: We study fine-grained gap-dependent regret bounds for model-free reinforcement learning in episodic tabular Markov Decision Processes. Existing model-free algorithms achieve minimax worst-case regret, but their gap-depende…