实体 Proximal Policy Optimization

Proximal Policy Optimization

PulseAugur coverage of Proximal Policy Optimization — every cluster mentioning Proximal Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 37

发布 · 30天

90 天内 0

论文 · 30天

90 天内 35

层级分布 · 90 天

关系

instance of deep reinforcement learning 90%
instance of reinforcement learning 90%
instance of Pfadfinder und Pfadfinderinnen Österreichs 70%
used by Pfadfinder und Pfadfinderinnen Österreichs 70%
used by deep reinforcement learning 70%
instance of Grand Portage National Monument 60%
competes with Grpo 50%

时间线

2026-05-26 research_milestone A new method is proposed to stabilize reinforcement learning training by strategically dropping transitions. 来源

情绪 · 30 天

6 天有情绪数据

最近 · 第 2/2 页 · 共 37 条

TOOL · CL_16702 · May 5 · 13:22

作者通过新的博客系列揭开强化学习数学的神秘面纱

一个旨在揭开强化学习背后数学神秘面纱的新博客系列，从基础概念开始，逐步深入到诸如近端策略优化 (PPO) 等高级算法。该系列的初始博文现已发布，为那些觉得该主题具有挑战性的人提供了一个易于理解的切入点。
TOOL · CL_16276 · May 5 · 04:00

DeepStage利用AI学习针对多阶段网络攻击的自主防御

研究人员开发了DeepStage，一个利用深度强化学习来创建针对多阶段网络攻击的自主防御策略的新框架。该系统将企业环境建模为部分可观察的马尔可夫决策过程，并将主机和网络数据融合到溯源图中。DeepStage采用图神经网络和LSTM来估计攻击者阶段，指导一个分层代理选择监控、遏制和修复的最佳防御措施。
TOOL · CL_16233 · May 5 · 04:00

新研究表明高熵导致Dec-POMDP中的对称等变策略

一篇新论文探讨了高熵正则化如何在分布式部分可观察马尔可夫决策过程（Dec-POMDPs）中产生对称等变策略。研究表明，足够高的熵可以确保策略梯度流在不同初始化下收敛到兼容的联合策略。在Hanabi和Overcooked等环境中的实证测试表明，增加熵系数会显著影响跨局回报，并且在训练后通过贪婪化策略有改进的潜力。
TOOL · CL_16220 · May 5 · 04:00

Deep Reinforcement Learning Optimizes Data Center Energy Use

This paper introduces a new Deep Reinforcement Learning (DRL) framework to manage energy consumption in data centers. The system dynamically coordinates solar, wind, battery storage, and grid power to reduce costs and c…
TOOL · CL_16153 · May 5 · 04:00

多智能体强化学习确保无人机集群间隔，但可能偏向更强的配置

研究人员开发了一个多智能体强化学习框架，以确保小型无人机系统（sUASs）集群间的安全间隔。提出的基于注意力机制的近端策略优化优势Actor-Critic（PPOA2C）方法允许集群在保持隐私的同时独立训练其策略。实验表明，PPOA2C策略可以实现安全间隔，并优于基于规则的基线，尽管均衡可能偏向于具有更强配置的集群，这凸显了对公平感知冲突管理的需求。
RESEARCH · CL_16149 · May 5 · 04:00

AI代理利用强化学习增强软件测试用例生成和代码覆盖率

研究人员开发了两种使用大型语言模型（LLMs）和强化学习进行自动化测试用例生成的新方法。第一种方法PPO-LLM采用近端策略优化（PPO）来指导LLM的提示选择，旨在最大化代码覆盖率并最小化源代码长度。第二种方法FeedbackLLM使用具有专门反馈代理的多代理系统，根据行和分支执行元数据来优化测试用例，并包含一个冗余预防缓存。这两种方法在为复杂软件系统生成测试用例方面均显示出优于现有工具的性能。
RESEARCH · CL_11904 · May 1 · 04:00

新的C++引擎HASE在多智能体强化学习训练中达到33M步/秒

研究人员开发了一种名为捉迷藏引擎 (HASE) 的新C++引擎，旨在显著提高在去中心化、部分可观察环境中的强化学习智能体训练效率。通过利用面向数据设计和优化的内存处理，HASE在单个智能体上实现了高达每秒3300万步的惊人吞吐量。该引擎大大缩短了多智能体策略的训练时间，使得复杂的协作行为能在几分钟内学会。
RESEARCH · CL_11403 · Apr 30 · 15:27

新的 Kernelized Advantage Estimation 通过非参数统计方法改进 LLM 推理能力

研究人员引入了 Kernelized Advantage Estimation (KAE) 来通过强化学习增强大型语言模型 (LLM) 的推理能力。KAE 解决了现有方法（如 Proximal Policy Optimization 和 GRPO）的局限性，这些方法要么计算开销高，要么需要过多的采样。通过利用经典的非参数统计方法，特别是核平滑，KAE 旨在以更少的每次提示推理轨迹来实现准确的值和梯度估计。这种方法在资源受限的环境中尤其…
RESEARCH · CL_10167 · Apr 30 · 04:00

机器人利用AI驱动的深度估计进行导航，摒弃LiDAR

研究人员开发了一种新颖的机器人导航师生框架，该框架用基于视觉的单目深度估计取代了传统的LiDAR传感器。一个由特权LiDAR数据训练的教师策略，指导一个仅依赖于经过微调的Depth Anything V2模型生成的深度图的学生策略。这种纯视觉方法允许在NVIDIA Jetson Orin AGX等平台上进行完全的板载处理，在复杂3D环境中表现出优于标准LiDAR的性能。
RESEARCH · CL_08685 · Apr 29 · 04:00

xLSTM 网络增强了用于自动化股票交易的深度强化学习

研究人员开发了一种新的自动化股票交易系统，该系统结合了扩展长短期记忆（xLSTM）网络和深度强化学习（DRL）。该方法旨在克服传统 LSTM 在处理长期依赖关系和动态市场条件方面的局限性。实验表明，基于 xLSTM 的 DRL 模型在包括累积回报和夏普比率在内的几项关键交易指标上优于标准的 LSTM 模型。
RESEARCH · CL_06928 · Apr 28 · 04:00

AI框架优化马拉维湖盆地土地利用以实现生态系统服务

研究人员开发了一个深度强化学习框架，以优化马拉维湖盆地的土地利用分配，旨在提升生态系统服务价值。该系统使用近端策略优化（Proximal Policy Optimization）代理来调整土地覆盖像素，并纳入生态价值和空间连贯性奖励。在不同场景下的评估表明，该代理成功地提高了生态系统价值并采用了符合生态规律的模式，展示了其在环境规划和政策分析方面的潜力。
RESEARCH · CL_06752 · Apr 28 · 04:00

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能

研究人员开发了新的方法来提高用于对齐大型语言模型（LLM）的奖励模型（RM）的可靠性和可解释性。一种方法引入了因果驱动的干预技术，以在推理时减轻 RM 中的各种偏差，显示出对虚假特征的敏感性降低，而没有性能权衡。另一项开发是“reward-lens”库，它将机制可解释性工具应用于 RM，揭示线性归因并不总是能预测因果打补丁的效果。此外，一种称为时间连贯奖励建模（TCRM）的新方法将 RM 视为价值函数，从而能够进行可解释的 token…
RESEARCH · CL_06317 · Apr 27 · 14:43

GradMAP AI 学会去中心化电网边缘设备控制，训练速度更快

研究人员开发了 GradMAP，一种新颖的基于梯度的多智能体近端学习方法，用于协调去中心化的电网边缘设备。该方法为每个智能体训练独立的神经网络策略，不共享参数，仅使用局部观测进行决策。GradMAP 在离线训练期间嵌入可微分潮流模型，以传播约束违反并更新策略，与现有基准相比，显著加快了训练速度。
RESEARCH · CL_05416 · Apr 21 · 14:07

DVPO和EVPO通过新颖的RL优化技术推进LLM训练后

研究人员引入了DVPO，这是一个新的强化学习框架，旨在改进大型语言模型（LLM）的训练后，特别是在处理嘈杂或不完整的监督信号时。DVPO利用分布值建模和不对称风险正则化来平衡鲁棒性和泛化性，旨在避免现有方法可能产生的过于保守的策略。在对话、数学推理和科学问答任务上的实验表明，在嘈杂条件下，DVPO的表现优于PPO和GRPO等标准方法。
SIGNIFICANT · CL_02559 · Apr 15 · 07:00

OpenAI Five AI 在历史性的电子竞技比赛中击败 Dota 2 世界冠军

OpenAI Five 在 OpenAI Five 总决赛中以两场连胜击败了 Dota 2 世界冠军，取得了重要的里程碑。这是首次有 AI 在直播比赛中公开战胜职业电子竞技选手。AI 的成功归功于训练计算量的巨大增加，使用了比之前版本多 8 倍的资源。除了比赛之外，OpenAI Five 还展现了与人类队友合作的意外能力，预示着未来有益的 AI 应用潜力。
RESEARCH · CL_01553 · Jul 20 · 07:00

OpenAI发布Proximal Policy Optimization，实现更简单、有效的强化学习

OpenAI发布了Proximal Policy Optimization (PPO)，这是一种新的强化学习算法，其性能可与现有方法媲美或更优，同时实现更简单的实现和调优。PPO在易用性、样本效率和超参数调优之间取得了平衡，使其成为深度神经网络控制任务的宝贵工具。该版本包括使用TensorFlow和MPI的可扩展、并行Python 3实现，以及提供显著速度提升的GPU版本PPO2。
RESEARCH · CL_00324 · May 29 · 04:31

OpenAI通过新的基准和方法推进强化学习

OpenAI发布了一系列研究论文，详细介绍了强化学习（RL）的进展。这包括使用OpenAI Five在Dota 2中达到超人水平的表现，开发RL环境安全探索的基准，以及通过新的CoinRun环境量化泛化能力。研究还探讨了通过好奇心鼓励探索的新方法，学习多智能体系统中的策略表示，以及为新任务的快速训练演化损失函数。此外，OpenAI正在研究策略梯度的方差缩减技术，并探索策略梯度与软Q学习之间的等价性。

作者通过新的博客系列揭开强化学习数学的神秘面纱

DeepStage利用AI学习针对多阶段网络攻击的自主防御

新研究表明高熵导致Dec-POMDP中的对称等变策略

Deep Reinforcement Learning Optimizes Data Center Energy Use

多智能体强化学习确保无人机集群间隔，但可能偏向更强的配置

AI代理利用强化学习增强软件测试用例生成和代码覆盖率

新的C++引擎HASE在多智能体强化学习训练中达到33M步/秒

新的 Kernelized Advantage Estimation 通过非参数统计方法改进 LLM 推理能力

机器人利用AI驱动的深度估计进行导航，摒弃LiDAR

xLSTM 网络增强了用于自动化股票交易的深度强化学习

AI框架优化马拉维湖盆地土地利用以实现生态系统服务

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能

GradMAP AI 学会去中心化电网边缘设备控制，训练速度更快

DVPO和EVPO通过新颖的RL优化技术推进LLM训练后

OpenAI Five AI 在历史性的电子竞技比赛中击败 Dota 2 世界冠军

OpenAI发布Proximal Policy Optimization，实现更简单、有效的强化学习

OpenAI通过新的基准和方法推进强化学习