新算法Anchor-TS改进了离线到在线学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 09:50

研究人员开发了一种名为Sample-Mean Anchored Thompson Sampling (Anchor-TS)的新算法，以改进离线到在线学习。该方法通过使用一种新颖的基于中位数的锚定规则，解决了离线和在线数据之间分布偏移的挑战。Anchor-TS旨在通过纠正偏差并安全地利用离线信息来加速在线学习，提供更准确的估计，并具有理论保证和实验验证。 AI

影响引入了一种新颖的算法，通过利用离线数据来改进决策，有可能提高在线学习系统的效率。

排序理由该集群包含一篇详细介绍机器学习问题新算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Fang Kong · 2026-05-11 09:50

Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift

Offline-to-online learning aims to improve online decision-making by leveraging offline logged data. A central challenge in this setting is the distribution shift between offline and online environments. While some existing works attempt to leverage shifted offline data, they lar…

报道来源 [1]

Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift

相关实体

相关话题