English(EN) Plan online, learn offline: Efficient learning and exploration via model-based control

OpenAI推出POLO，实现高效在线学习和离线探索

作者 PulseAugur 编辑部 · [1 个来源] · 2018-11-05 08:00

OpenAI推出了一种名为POLO（Plan Online, Learn Offline，在线规划，离线学习）的新框架，专为需要持续与环境交互并从中学习的智能体设计。该方法将基于模型的控制与价值函数学习和探索策略相结合。POLO旨在通过使用局部轨迹优化来稳定和加速价值函数学习，同时利用近似价值函数来增强策略决策，从而提高学习效率。该框架在人形运动和灵巧操作等复杂的模拟任务中取得了成功，以最少的经验实现了快速学习。 AI

排序理由这是一篇详细介绍OpenAI新框架的研究论文。

在 OpenAI News 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

OpenAI News TIER_1 English(EN) · 2018-11-05 08:00

Plan online, learn offline: Efficient learning and exploration via model-based control

报道来源 [1]

Plan online, learn offline: Efficient learning and exploration via model-based control

相关话题