English(EN) TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance

TimeRewarder 从被动视频中学习密集奖励，用于强化学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了 TimeRewarder，一种从被动视频中学习密集奖励信号的新颖方法。该技术通过对帧对之间的时间距离进行建模来估计任务进度，然后可以指导强化学习代理。在十个 Meta-World 任务上的实验表明，TimeRewarder 显著提高了成功率和样本效率，优于手动设计的奖励和以前的方法。该方法还展示了利用真实世界的人类视频进行可扩展奖励信号生成的潜力。 AI

影响通过从视频数据中自动设计奖励，实现更有效的强化学习代理训练。

排序理由该集群包含一篇详细介绍强化学习新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yuyang Liu, Chuan Wen, Yihang Hu, Dinesh Jayaraman, Yang Gao · 2026-05-22 04:00

TimeRewarder：通过逐帧时间距离从被动视频中学习密集奖励

arXiv:2509.26627v3 Announce Type: replace Abstract: Designing dense rewards is crucial for reinforcement learning (RL), yet in robotics it often demands extensive manual effort and lacks scalability. One promising solution is to view task progress as a dense reward signal, as it …

报道来源 [1]

TimeRewarder：通过逐帧时间距离从被动视频中学习密集奖励

相关实体

相关话题