English(EN) Reinforcement Learning from Cross-domain Videos with Video Prediction Model

新型XIPER模型支持跨域视频强化学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员开发了XIPER，这是一种新颖的奖励模型，旨在实现跨视觉上不同的领域的专家视频强化学习。XIPER通过训练跨域视频预测模型来解决域间隙和缺乏显式奖励信号带来的挑战。该模型将智能体观测映射到专家领域，利用预测似然作为奖励信号。实验表明，XIPER在具有显著视觉差异的任务（包括模拟到现实迁移场景）中优于基线方法。 AI

影响该方法可以提高强化学习智能体在具有视觉域转移的现实场景中的效率和适用性。

排序理由这是一篇详细介绍强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhao Yang, Xinrui Zu, Jacob E. Kooi, Thomas Delliaux, He Liu, Shujian Yu, Kevin Sebastian Luck, Vincent Fran\c{c}ois-Lavet · 2026-06-03 04:00

基于视频预测模型的跨域视频强化学习

arXiv:2606.03201v1 Announce Type: cross Abstract: Reinforcement learning from expert videos across visually distinct domains is challenging due to the absence of reward signals and the presence of domain gaps. We introduce XIPER (Cross-domain Video Prediction Reward), a reward mo…

报道来源 [1]

基于视频预测模型的跨域视频强化学习

相关实体

相关话题