PulseAugur
实时 19:00:15
实体 Yanlin Qu

Yanlin Qu

PulseAugur coverage of Yanlin Qu — every cluster mentioning Yanlin Qu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56460 ·

    Thompson Sampling 被视为在线优化

    一篇新论文将广泛使用的 bandit 算法 Thompson Sampling 重塑为在线优化问题。这种视角揭示了后验采样如何通过模仿 Bellman 最优策略并由残余不确定性进行正则化来平衡探索与利用。该研究提供了对 Thompson Sampling 动态的更深入理解以及一种改进策略的方法。