PulseAugur
实时 19:03:48
English(EN) A Broader View of Thompson Sampling

Thompson Sampling 被视为在线优化

一篇新论文将广泛使用的 bandit 算法 Thompson Sampling 重塑为在线优化问题。这种视角揭示了后验采样如何通过模仿 Bellman 最优策略并由残余不确定性进行正则化来平衡探索与利用。该研究提供了对 Thompson Sampling 动态的更深入理解以及一种改进策略的方法。 AI

影响 为理解和潜在改进 AI 中使用的 bandit 算法提供了一个新的理论框架。

排序理由 关于机器学习算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Thompson Sampling 被视为在线优化

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yanlin Qu, Hongseok Namkoong, Assaf Zeevi ·

    Thompson Sampling 的更广阔视角

    arXiv:2510.07208v2 Announce Type: replace Abstract: Thompson Sampling is one of the most widely used and studied bandit algorithms, known for its simple structure, low regret performance, and solid theoretical guarantees. Yet, in stark contrast to most other families of bandit al…