English(EN) Exploration and Online Transfer with Behavioral Foundation Models

新框架实现强化学习中的在线奖励发现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员引入了一种新颖的强化学习零样本迁移框架，解决了在线奖励发现的挑战。所提出的方法利用行为基础模型（BFMs）来生成探索策略，将在线学习问题构建为类似赌博机的探索-利用任务。这种方法允许智能体通过与环境交互和观察奖励来学习最优策略，超越了需要预先存在的状态-奖励数据集的离线迁移方法的局限性。该论文推导了一个受上置信界（Upper Confidence Bound）启发的线性奖励近似公式，表明可以通过最小化不确定性矩阵的特征值来实现探索。 AI

影响这项研究可以实现更具适应性和效率的强化学习智能体，使其能够在没有预定义奖励数据集的情况下进行实时学习。

排序理由关于强化学习新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Louis Bagot (SyCoSMA), Mathieu Lefort (LIRIS, SyCoSMA, IRISA, MALT, UR), La\"etitia Matignon (SyCoSMA) · 2026-06-30 04:00

基于行为基础模型的探索与在线迁移

arXiv:2606.29980v1 Announce Type: new Abstract: Zero-shot Transfer in Reinforcement Learning (RL) aims to train an agent that can generate optimal policies for any reward function, without additional learning at transfer time, while training only on reward-free trajectories. For …

报道来源 [1]

基于行为基础模型的探索与在线迁移

相关实体

相关话题