PulseAugur
实时 20:01:08
实体 A3C

A3C

PulseAugur coverage of A3C — every cluster mentioning A3C across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
最近 · 第 1/1 页 · 共 3 条
  1. RESEARCH · CL_01047 ·

    OpenAI finds evolution strategies rival reinforcement learning for AI training

    OpenAI researchers have found that evolution strategies (ES), a decades-old optimization technique, can rival the performance of modern reinforcement learning (RL) methods on benchmarks like Atari and MuJoCo. ES offers …

  2. RESEARCH · CL_02556 ·

    OpenAI及研究人员揭示AI在对抗性攻击下的脆弱性

    OpenAI的研究人员正在探索神经网络中对抗鲁棒性在不同类型扰动间的迁移性。他们的研究结果表明,针对一种扰动类型的鲁棒性并不总是能保证对其他扰动类型的鲁棒性,有时甚至可能适得其反。他们建议使用多种类型的扰动和不同大小的扰动来评估对抗性防御,以确保全面的安全性。此外,OpenAI正在将对抗性样本作为一个具体的AI安全问题进行研究,并指出它们可能导致严重问题,例如欺骗自动驾驶汽车。

  3. RESEARCH · CL_00324 ·

    OpenAI通过新的基准和方法推进强化学习

    OpenAI发布了一系列研究论文,详细介绍了强化学习(RL)的进展。这包括使用OpenAI Five在Dota 2中达到超人水平的表现,开发RL环境安全探索的基准,以及通过新的CoinRun环境量化泛化能力。研究还探讨了通过好奇心鼓励探索的新方法,学习多智能体系统中的策略表示,以及为新任务的快速训练演化损失函数。此外,OpenAI正在研究策略梯度的方差缩减技术,并探索策略梯度与软Q学习之间的等价性。