实体 A3C

A3C

PulseAugur coverage of A3C — every cluster mentioning A3C across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 4

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_133396 · Jul 9 · 02:51

DeepMind 的 A3C 论文荣获 ICML 时间检验奖，强调计算限制

在 ICML 2026 上，Google DeepMind 的 Volodymyr Mnih 接受了 2016 年论文“异步深度强化学习方法”（Asynchronous Methods for Deep Reinforcement Learning）的时间检验奖。Mnih 强调，当时的计算限制，特别是缺乏 GPU，推动了异步方法的发展。他还指出，最具持久影响力的成果往往来自于将现有思想与严谨的实验和细致的实现相结合，而不是仅仅追求新颖…
RESEARCH · CL_01047 · Mar 24 · 07:00

OpenAI发现进化策略在AI训练方面可与强化学习相媲美

OpenAI的研究人员发现，进化策略（ES）这一已有数十年的优化技术，在Atari和MuJoCo等基准测试中，其性能可以与现代强化学习（RL）方法相媲美。ES的优势包括实现更简单，无需反向传播，在分布式环境中更易于扩展，以及能更好地处理稀疏奖励。这种方法比传统的RL训练智能体速度显著更快，一项实验将人形步行者（humanoid walker）的训练时间从10小时缩短到10分钟。
RESEARCH · CL_02556 · Feb 8 · 08:00

OpenAI及研究人员揭示AI在对抗性攻击下的脆弱性

OpenAI的研究人员正在探索神经网络中对抗鲁棒性在不同类型扰动间的迁移性。他们的研究结果表明，针对一种扰动类型的鲁棒性并不总是能保证对其他扰动类型的鲁棒性，有时甚至可能适得其反。他们建议使用多种类型的扰动和不同大小的扰动来评估对抗性防御，以确保全面的安全性。此外，OpenAI正在将对抗性样本作为一个具体的AI安全问题进行研究，并指出它们可能导致严重问题，例如欺骗自动驾驶汽车。
RESEARCH · CL_00324 · May 29 · 04:31

OpenAI 通过 Dota 2、安全性和泛化性推进强化学习

OpenAI 发布了一系列研究论文，详细介绍了强化学习方面的进展。其中包括 OpenAI Five 在 Dota 2 中取得超越人类的表现，开发了 RL 安全探索的基准，并使用 CoinRun 环境量化了泛化能力。该公司还探索了新颖的方法，例如基于预测的奖励以实现好奇心驱动的探索，学习多智能体系统中的策略表示，以及一种名为 Evolved Policy Gradients 的实验性元学习方法，以加快新任务的训练速度。进一步的研究解决了…