一篇新论文将广泛使用的 bandit 算法 Thompson Sampling 重塑为在线优化问题。这种视角揭示了后验采样如何通过模仿 Bellman 最优策略并由残余不确定性进行正则化来平衡探索与利用。该研究提供了对 Thompson Sampling 动态的更深入理解以及一种改进策略的方法。 AI
影响 为理解和潜在改进 AI 中使用的 bandit 算法提供了一个新的理论框架。
排序理由 关于机器学习算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →