Brief · PulseAugur

RESEARCH · Hugging Face Daily Papers English(EN) · 1d · [4 sources]

Asymptotic Optimality of Thompson Sampling for Risk-Averse Bandits with Sub-Gaussian Rewards

Two new research papers explore advancements in Thompson Sampling for bandit problems. The first paper introduces an algorithm for risk-averse bandits with sub-Gaussian rewards, achieving asymptotic optimality for various risk functionals. The second paper presents algorithms for joint prior selection and regret minimization in Gaussian Process bandits, demonstrating effectiveness through theoretical analysis and experiments. AI

IMPACT These papers advance theoretical understanding and algorithmic capabilities in bandit problems, potentially improving decision-making in areas like reinforcement learning and online optimization.

rho-NPTS_SG
CVaR
Sharpe ratio
Thompson Sampling
HyperPrior GP-TS
Prior-Elimination GP-TS
risk-averse bandits
sub-Gaussian rewards
Jack Sandberg
Gaussian arms