实体
Meta-World Physics
Meta-World Physics
PulseAugur coverage of Meta-World Physics — every cluster mentioning Meta-World Physics across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
TimeRewarder 从被动视频中学习密集奖励,用于强化学习
研究人员开发了 TimeRewarder,一种从被动视频中学习密集奖励信号的新颖方法。该技术通过对帧对之间的时间距离进行建模来估计任务进度,然后可以指导强化学习代理。在十个 Meta-World 任务上的实验表明,TimeRewarder 显著提高了成功率和样本效率,优于手动设计的奖励和以前的方法。该方法还展示了利用真实世界的人类视频进行可扩展奖励信号生成的潜力。
-
机器人策略生成方法DISC将语言与控制解耦
研究人员开发了一种名为DISC(Decoupling Instruction from State-Conditioned Control)的新方法,以改进机器人中的语言条件操作策略。DISC在结构上将指令处理与状态条件控制分开,防止策略学习绕过语言基础的捷径。它通过使用超网络直接从指令生成特定任务的视觉运动策略来实现这一点,确保任务意识仅来自语言。