PulseAugur
实时 11:28:25
English(EN) Model-Based Learning of Whittle indices

新算法BLINQ学习马尔可夫决策过程的Whittle指数

研究人员开发了BLINQ,一种新颖的基于模型的算法,旨在学习马尔可夫决策过程(Markov Decision Processes)的Whittle指数。这种新方法构建了MDP的经验估计,然后计算指数,提供了已证实的收敛保证和学习时间的界限。数值实验表明,BLINQ在准确逼近方面比现有的Q-learning方法需要更少的样本,并且总体计算成本更低。 AI

排序理由 这是一篇研究论文,详细介绍了一种用于学习MDP中Whittle指数的新算法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Jo\"el Charles-Rebuff\'e, Nicolas Gast, Bruno Gaujal ·

    基于模型的Whittle指数学习

    arXiv:2511.20397v2 Announce Type: replace Abstract: We present BLINQ, a new model-based algorithm that learns the Whittle indices of an indexable, communicating and unichain Markov Decision Process (MDP). Our approach relies on building an empirical estimate of the MDP and then c…