实体
Stochastic Linear Bandits
Stochastic Linear Bandits
PulseAugur coverage of Stochastic Linear Bandits — every cluster mentioning Stochastic Linear Bandits across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新分析表明线性集成采样可媲美汤普森采样
研究人员发表了对随机线性 bandits 中线性集成采样 (ES) 的新分析,证明了其在标准高斯扰动下的有效性。研究表明,ES 可以实现 \tilde O(d^{3/2}\sqrt n) 的遗憾值,集成大小为 m=\Theta(d\log n),其性能可媲美汤普森采样,同时计算成本相当。新颖的证明技术涉及将分析简化为独立布朗运动的时间均匀超额问题,为线性 bandits 中的随机探索提供了新视角。
-
新研究表征了随机线性赌博机中的延迟反馈
研究人员发表了一篇论文,详细介绍了具有延迟反馈的随机线性赌博机的近乎最优遗憾保证。该研究区分了与损失无关和与损失有关的延迟,发现前者仅会产生一个无维度的加性惩罚。相比之下,与损失有关的延迟带来了更大的挑战,其惩罚与维度呈平方根关系,这使得它们比多臂赌博机场景更难处理。