研究人员开发了BLINQ,一种新颖的基于模型的算法,旨在学习马尔可夫决策过程(Markov Decision Processes)的Whittle指数。这种新方法构建了MDP的经验估计,然后计算指数,提供了已证实的收敛保证和学习时间的界限。数值实验表明,BLINQ在准确逼近方面比现有的Q-learning方法需要更少的样本,并且总体计算成本更低。 AI
排序理由 这是一篇研究论文,详细介绍了一种用于学习MDP中Whittle指数的新算法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →