OpenAI Five
PulseAugur coverage of OpenAI Five — every cluster mentioning OpenAI Five across labs, papers, and developer communities, ranked by signal.
-
OpenAI trains robot hand to solve Rubik's Cube using advanced simulation
OpenAI has developed a system using two neural networks to enable a robot hand to solve a Rubik's Cube. The networks were trained entirely in simulation using reinforcement learning and a new technique called Automatic …
-
OpenAI代理在捉迷藏游戏中展现出涌现的工具使用能力,推动AI策略发展
OpenAI的研究人员在一个模拟的捉迷藏游戏中展示了涌现的工具使用能力,代理在没有明确指令的情况下开发了复杂的策略。通过多代理竞争,代理学会了与物体互动和导航环境,展示了自我监督的自动课程。这项研究表明,多代理协同适应可能在未来带来高度复杂的行为,利用与OpenAI Five等先前OpenAI项目类似的训练基础设施。
-
OpenAI Five AI 在历史性的电子竞技比赛中击败 Dota 2 世界冠军
OpenAI Five 在 OpenAI Five 总决赛中以两场连胜击败了 Dota 2 世界冠军,取得了重要的里程碑。这是首次有 AI 在直播比赛中公开战胜职业电子竞技选手。AI 的成功归功于训练计算量的巨大增加,使用了比之前版本多 8 倍的资源。除了比赛之外,OpenAI Five 还展现了与人类队友合作的意外能力,预示着未来有益的 AI 应用潜力。
-
Ilya Sutskever 离开 OpenAI;Jakub Pachocki 被任命为新首席科学家
Ilya Sutskever 将离开 OpenAI,Sam Altman 宣布 Jakub Pachocki 将接任首席科学家一职。Pachocki 此前曾负责 GPT-4 和 OpenAI Five 的研究,现在将领导公司迈向 AGI 的进程。OpenAI 还概述了几个关键研究领域,包括检测隐蔽 AI 系统、构建用于编程竞赛的代理、网络安全防御以及创建复杂的代理模拟。
-
OpenAI通过新的基准和方法推进强化学习
OpenAI发布了一系列研究论文,详细介绍了强化学习(RL)的进展。这包括使用OpenAI Five在Dota 2中达到超人水平的表现,开发RL环境安全探索的基准,以及通过新的CoinRun环境量化泛化能力。研究还探讨了通过好奇心鼓励探索的新方法,学习多智能体系统中的策略表示,以及为新任务的快速训练演化损失函数。此外,OpenAI正在研究策略梯度的方差缩减技术,并探索策略梯度与软Q学习之间的等价性。