实体 Joseph Amigo

Joseph Amigo

PulseAugur coverage of Joseph Amigo — every cluster mentioning Joseph Amigo across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_68398 · Jun 3 · 04:00

新RL方法在学习的世界模型中训练策略，无需模拟器

研究人员开发了一种在学习的世界模型中训练强化学习（RL）策略的新方法，无需传统的模拟器。该方法采用解耦的一阶梯度（FoG）技术，结合了用于精确轨迹生成的全规模世界模型和用于高效梯度计算的轻量级潜在空间代理模型。与PPO相比，该方法在操作任务中表现出更高的样本效率，包括使用四足机器人进行物体操作。