PulseAugur
实时 23:49:47
实体 Matthias Plappert

Matthias Plappert

PulseAugur coverage of Matthias Plappert — every cluster mentioning Matthias Plappert across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_00324 ·

    OpenAI 通过 Dota 2、安全性和泛化性推进强化学习

    OpenAI 发布了一系列研究论文,详细介绍了强化学习方面的进展。其中包括 OpenAI Five 在 Dota 2 中取得超越人类的表现,开发了 RL 安全探索的基准,并使用 CoinRun 环境量化了泛化能力。该公司还探索了新颖的方法,例如基于预测的奖励以实现好奇心驱动的探索,学习多智能体系统中的策略表示,以及一种名为 Evolved Policy Gradients 的实验性元学习方法,以加快新任务的训练速度。进一步的研究解决了…