English(EN) Variational option discovery algorithms

OpenAI推出VALOR，利用课程学习进行变分选项发现

作者 PulseAugur 编辑部 · [1 个来源] · 2018-07-26 07:00

OpenAI的研究人员推出了一种新的强化学习选项发现方法VALOR，该方法利用了变分自编码器。这种方法将变分推理技术与自编码器相结合，使策略能够将上下文编码到轨迹中，解码器则可以恢复它们。此外，他们还提出了一种课程学习策略，随着智能体性能的提高，增加其遇到的上下文数量，从而稳定训练并学习更广泛的行为。 AI

排序理由该条目描述了OpenAI发布的一项新的算法贡献和方法（VALOR），符合研究类别。

在 OpenAI News 阅读 →

论文
模型发布

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

OpenAI News TIER_1 English(EN) · 2018-07-26 07:00

Variational option discovery algorithms

报道来源 [1]

Variational option discovery algorithms

相关话题