English(EN) UCB exploration via Q-ensembles

OpenAI 使用 Q-ensembles 改进强化学习探索

作者 PulseAugur 编辑部 · [1 个来源] · 2017-06-05 07:00

OpenAI 研究人员开发了一种新的深度强化学习探索策略，利用 Q 函数的集成。该方法将来自多臂老虎机问题的上置信界（UCB）改编到 Q 学习设置中。实验证明在 Atari 基准测试上性能有显著提升。 AI

排序理由学术论文，详细介绍了强化学习探索的新方法。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

OpenAI News TIER_1 English(EN) · 2017-06-05 07:00

UCB exploration via Q-ensembles