OpenAI 开发了一个系统,使用两个神经网络使机器人手能够解决魔方。这些网络完全在模拟中使用强化学习和一种称为自动域随机化 (ADR) 的新技术进行训练。这种方法允许系统泛化到现实世界的物理任务,即使是那些在训练期间没有遇到的任务,也展示了强化学习在虚拟环境之外的潜力。虽然机器人可以 60% 的时间解决魔方,但这一成就标志着朝着能够进行复杂操作的通用机器人迈出了重要一步。 AI
排序理由 通过模拟和新颖的随机化技术在物理任务中演示强化学习。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →