English(EN) Leveraging Similarities in Multi-Armed Bandits

新研究探讨利用多臂老虎机问题中的行动相似性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 14:39

一篇新研究论文探讨了多臂老虎机问题的在线学习策略，其中行动具有固有的相似性，例如共享特征或分层结构。该研究引入了一个根树模型来表示这些行动相似性，并建立了一个理论极限，表明标准的单点老虎机反馈无法有效利用这种相似性。然而，该研究提出了一套统一的算法，可以适应更丰富的反馈模型，包括半老虎机和多点协议，通过结合相似性感知的有效行动数量来实现改进的遗憾界限。 AI

影响这项研究可能导致在处理大量相似选项的系统中出现更高效的在线学习算法。

排序理由关于理论机器学习主题的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Pierre Gaillard · 2026-06-22 14:39

Leveraging Similarities in Multi-Armed Bandits

In many online learning and bandit problems, the actions we consider possess inherent similarities--for instance because they share latent traits, tags, or hierarchical structure. We study online learning with a similarity-structured action set, encoded by a rooted tree whose lea…

报道来源 [1]

Leveraging Similarities in Multi-Armed Bandits

相关实体

相关话题