实体 TimeRewarder

TimeRewarder

PulseAugur coverage of TimeRewarder — every cluster mentioning TimeRewarder across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

时间线

2026-05-22 research_milestone A new paper details the TimeRewarder method for learning dense rewards from passive videos. 来源

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_44719 · May 22 · 04:00

TimeRewarder 从被动视频中学习密集奖励，用于强化学习

研究人员开发了 TimeRewarder，一种从被动视频中学习密集奖励信号的新颖方法。该技术通过对帧对之间的时间距离进行建模来估计任务进度，然后可以指导强化学习代理。在十个 Meta-World 任务上的实验表明，TimeRewarder 显著提高了成功率和样本效率，优于手动设计的奖励和以前的方法。该方法还展示了利用真实世界的人类视频进行可扩展奖励信号生成的潜力。