实体 Proximal Policy Optimization

Proximal Policy Optimization

PulseAugur coverage of Proximal Policy Optimization — every cluster mentioning Proximal Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

110

90 天内 110

发布 · 30天

90 天内 0

论文 · 30天

105

90 天内 105

层级分布 · 90 天

research 38
tool 70
commentary 2

主题

论文 105
其他 52
产品 20
基础设施 19
模型发布 19
安全 15

关系

instance of Pfadfinder und Pfadfinderinnen Österreichs 90%
instance of reinforcement learning 90%
instance of deep reinforcement learning 90%
developed Advantage Actor-Critic 90%
used by long short-term memory 90%
used by reinforcement learning from human feedback 80%
used by reinforcement learning 70%
used by Grpo 70%
developed Grpo 70%
used by large-language models 70%
uses Grpo 70%
instance of Direct Preference Optimization 70%

时间线

2026-05-26 research_milestone A new method is proposed to stabilize reinforcement learning training by strategically dropping transitions. 来源

情绪 · 30 天

20 天有情绪数据

最近 · 第 1/6 页 · 共 110 条

TOOL · CL_135323 · Jul 10 · 04:00

AI智能体现可模拟七种心理障碍

研究人员开发了一种在强化学习智能体中模拟心理障碍的新颖框架，超越了单次运行、手动调整的方法。这种新方法允许对认知评估信号进行剂量可控的操纵，以诱导七种不同的障碍，包括焦虑、躁狂和抑郁，每种障碍都通过特定的检测方法进行测量。在超过一千次实验运行中，诱导的障碍表现出分级、剂量依赖的反应，而对照组未能复制，这表明了一种模拟AI情感表型的鲁棒且可控的方法。
RESEARCH · CL_135216 · Jul 9 · 17:09

MPFlow 使用图强化学习优化比特币闪电网络流动性

研究人员开发了 MPFlow，这是一种深度图强化学习代理，旨在优化比特币闪电网络上的流动性配置。该代理解决了在固定预算下选择哪些通道以最大化路由容量（以 s-t 最大流衡量）的挑战。MPFlow 使用带有近端策略优化 (PPO) 的消息传递策略网络，并已投入生产，成功指导了在多个节点上分配大量 BTC 和价值的通道开放决策。
TOOL · CL_133611 · Jul 9 · 04:00

新的强化学习算法PPO-PGDLC增强了策略鲁棒性

研究人员开发了一种名为PPO-PGDLC的新型强化学习算法，旨在提高策略对转移动力学不确定性的鲁棒性。该算法将近端策略优化与投影梯度下降和Lipschitz正则化判别器相结合。在控制任务和机器人运动方面的实验表明，PPO-PGDLC在面对环境扰动时，通过实现更好的性能和产生更平滑的动作，优于基线方法。
TOOL · CL_133499 · Jul 9 · 04:00

深度强化学习优化投资组合风险与回报

研究人员开发了一个新颖的深度强化学习框架MORP-DRL，旨在通过同时考虑预期回报和下行风险来优化投资组合。该框架整合了方差、条件在险价值（CVaR）和熵在险价值（EVaR），以模拟包括肥尾行为和交易成本在内的复杂市场动态。在各种市场环境下进行的实验表明，MORP-DRL在压力市场条件下提供了具有竞争力的风险回报表现和增强的稳定性，并展示了其在高维投资组合中的可扩展性。
TOOL · CL_129151 · Jul 7 · 04:00

预期强化学习改进轨迹跟踪，但仿真到现实的差距依然存在

研究人员开发了一种名为预期强化学习（ARL）的新方法，以改进工业控制系统中的轨迹跟踪。该方法通过增加未来参考视界来扩展状态空间，旨在减少纯粹反应式深度强化学习（DRL）系统中常见的滞后和超调。虽然仿真显示误差显著减少了9倍，但将模型转移到物理硬件上时，暴露了仿真到现实的差距。有趣的是，具有单一前瞻视界的更简单的ARL配置，在现实世界的性能上与更复杂的模型相当，这表明对于有效的物理迁移来说，高度精细的预测数据并非总是必需的。
TOOL · CL_129150 · Jul 7 · 04:00

物理信息神经网络增强强化学习的安全性

研究人员开发了一种新方法，以增强工业网络物理系统中深度强化学习（DRL）的安全性。他们的方法将可微分物理模型直接集成到近端策略优化（PPO）的actor损失函数中。这使得策略在训练过程中能够因预期的安全违规而受到惩罚，而与主要任务奖励无关。在模拟的单自由度直升机上进行测试，这种物理信息正则化显著减少了约束违规，同时保持了可靠的性能。
TOOL · CL_129073 · Jul 7 · 04:00

元强化学习增强射频干扰定位

研究人员开发了一种使用主动感知和元强化学习来定位全球导航卫星系统（GNSS）干扰源的新方法。该框架将定位任务建模为部分可观察的决策过程，将高维射频（RF）传感与深度强化学习和循环策略学习相结合。使用带有Sionna射线追踪模块的模拟数据集进行评估，该方法实现了80.1%的定位成功率，证明了模拟辅助训练在复杂环境中进行鲁棒干扰定位的有效性。
TOOL · CL_128966 · Jul 7 · 04:00

新的基于轨迹的评估方法确保 AI 代理保持行为纪律

研究人员引入了一个名为“纪律稳定性”的新评估框架，用于评估 AI 代理，特别是在多代理强化学习 (MARL) 场景中。该方法侧重于基于轨迹的评估，它检查代理随时间的行为，而不仅仅是最终结果。目标是确保代理不仅能实现期望的结果，而且能遵守特定的行为规则或“纪律”，尤其是在处理隐藏的竞争者状态时。在酒店定价和竞价任务等基准测试上的实验表明，传统的仅基于结果的评估方法可能具有误导性，而基于轨迹的方法，结合揭示隐藏状态或使用轨迹先验等技术，可…
TOOL · CL_128804 · Jul 7 · 04:00

基于因果关系的强化学习框架增强自主系统恢复能力

研究人员开发了CRRL，一个将基于因果关系的强化学习与面向自主代理的基于规则的恢复系统相结合的新型框架。该方法解决了传统强化学习的局限性，传统强化学习常常难以应对新颖的故障场景并可能导致系统瘫痪。通过整合从驾驶日志中获得的因果理解，CRRL训练策略以预测并有效地与基于规则的干预措施协同工作，从而提高了奖励、距离和速度等性能指标。该框架在驾驶场景中取得了成功，一些代理在无需恢复干预的情况下实现了导航能力。
TOOL · CL_128691 · Jul 7 · 04:00

可解释强化学习框架提升交通信号控制的安全性和透明度

研究人员开发了一个新的可解释强化学习（RL）框架，旨在提高自适应交通信号控制系统的安全性和透明度。这种新颖的方法将交通观测分解为不同的车道实体和相位配置，保留了交叉口的结构拓扑。一个双阶段注意力网络提取关系依赖性，提供对信号相位影响交通量的可解释见解。该系统在Proximal Policy Optimization管道内集成了确定性动作掩码接口，以防止无效的相位转换，确保符合安全约束。该框架在模拟中进行了评估，在减少延迟方面优于现有方…
RESEARCH · CL_131270 · Jul 6 · 22:52

深度强化学习优化农场和仓库的电池管理

两篇新研究论文探讨了深度强化学习（DRL）在不同情境下优化电池管理的应用。一篇论文详细介绍了一个用于爱尔兰奶牛场的多智能体DRL系统，旨在通过优化电池用于能源套利来提高可再生能源整合并减少排放，显示出高达18%的潜在利润增长。另一篇论文则关注仓库中自主移动机器人的动态电池管理，使用近端策略优化（PPO）将订单完成率提高高达6%，并减少充电时间。
RESEARCH · CL_128435 · Jul 6 · 16:20

强化学习优化AI推理路由，提高吞吐量

研究人员开发了一种强化学习（RL）方法来优化AI系统的推理批处理和路由，特别是在多GPU环境中。他们的研究结果表明，虽然RL在单GPU设置中仅带来边际收益，但在异构多GPU路由场景中，其性能远超传统启发式方法。RL代理发现了一种工作负载隔离策略，通过消除队首阻塞（Head-of-Line blocking）来显著降低延迟并提高吞吐量，证明了RL在推理基础设施的复杂组合决策制定中的有效性。
TOOL · CL_123258 · Jul 3 · 04:00

PPO驱动的自适应滤波框架在信号去噪方面展现出潜力

研究人员开发了一种利用近端策略优化（PPO）这一强化学习技术的新型自适应滤波框架。这种PPO驱动的方法旨在复杂、非平稳环境中对信号进行去噪，其性能优于卡尔曼滤波器等传统方法。该框架在合成数据和真实心电图（ECG）记录上进行了测试，证明了其在减少噪声和实现实时推理方面的有效性。
TOOL · CL_122451 · Jul 2 · 17:50

Amazon SageMaker AI 推出多轮强化学习新服务

Amazon SageMaker AI 推出了新的多轮强化学习 (MTRL) 服务，旨在训练能够处理复杂、顺序任务的智能体。该服务旨在简化开发能够与工具交互、从错误中恢复以及从多步骤过程中学习的智能体的过程。它提供了模块化智能体-环境接口、无服务器执行、异步推出和原生算法库等功能，同时还提供了对训练指标的可观测性。
TOOL · CL_121330 · Jul 2 · 01:48

ICML 2026 投稿量激增，关注点转向 AI 推理与安全

在首尔举行的国际机器学习大会 (ICML) 2026 收到了超过 23,000 篇论文，投稿量几乎翻倍，同时保持了 26.6% 的录用率。关键研究趋势表明，研究重点正从简单地扩展模型转向“更好思考”，更加关注 LLM 推理、AI 安全与对齐，以及通过压缩和加速技术提高模型效率。中国研究人员的引用率日益提高，并开始定义研究问题，特别是 DeepSeek 在高效模型开发和多模态 AI 方面的贡献产生了影响。
RESEARCH · CL_128430 · Jul 1 · 17:02

新研究推动扩散模型在量化、运动生成和RLHF方面的进展

研究人员开发了改进扩散模型的新方法。其中一篇论文介绍了引导感知混合精度（GAMP），以解决无分类器引导（CFG）扩散模型中的量化挑战，防止无条件分支漂移。另一篇论文提出了ARDY，一个用于文本和运动学控制的实时、高保真3D人体运动生成的框架。此外，还提出了一种名为ContrastiveCFG的新方法，通过使用对比损失来增强条件扩散模型的采样，以实现更好的概念对齐和过滤。最后，详细介绍了样本高效扩散RLHF的进展，其特点是选择性时间步加…
TOOL · CL_119429 · Jul 1 · 04:00

6G OFDM-RIS优化综述：基础模型和深度学习崭露头角

一篇新的综述论文探讨了6G网络中联合正交频分复用（OFDM）和可重构智能表面（RIS）配置的优化算法。它将现有研究分为四类：基于模型的凸松弛、启发式搜索、深度强化和无监督学习，以及基础模型和生成式AI等新兴方法。论文指出，与传统求解器相比，基于机器学习的方法在推理时间上提供了显著的加速，尽管由于缺乏标准化基准，直接比较存在困难。
TOOL · CL_117657 · Jun 30 · 04:00

新的PS-PPO方法降低了LLM的RLHF训练成本

研究人员引入了前缀采样近端策略优化（PS-PPO），这是一种旨在提高大型语言模型从人类反馈中强化学习（RLHF）计算效率的新方法。这种新方法通过在每个轨迹中采样一个截止点来解决现有无判别器方法效率低下的问题，从而仅通过采样前缀传播更新。该技术显著降低了训练计算量和峰值GPU内存使用量，同时在数学推理和RLHF基准测试的实验中保持了与当前基线相当的准确性。
TOOL · CL_117464 · Jun 30 · 04:00

新的BV-Blend框架稳定LLM对齐的无批评RL

研究人员开发了BV-Blend，一个旨在稳定无批评强化学习（RL）方法的新框架，特别适用于对齐大型语言模型。该方法通过结合不确定性加权历史基线来解决现有方法（如Group Relative Policy Optimization (GRPO)）中的不稳定性问题。BV-Blend将提示局部统计数据与语义集群条件化的历史矩相结合，使用源自均值代理标准误差的置信度权重。在可验证推理基准上的实验表明，BV-Blend提高了训练稳定性和性能，尤…
RESEARCH · CL_117378 · Jun 29 · 13:59

强化学习优化风电场数据中心能源使用

本文探讨了使用强化学习（RL）优化与风电场相结合的数据中心运营。研究人员开发了一个模拟框架，用于测试RL代理进行工作负载转移，目标是在考虑削减的情况下最大限度地利用风能。研究发现，尽管像Proximal Policy Optimization（PPO）和Soft Actor-Critic（SAC）这样的RL代理表现强劲，但由于其在线决策的局限性，它们仍落后于离线优化器。论文还评估了模仿学习和奖励塑形作为提高RL性能的方法。

AI智能体现可模拟七种心理障碍

MPFlow 使用图强化学习优化比特币闪电网络流动性

新的强化学习算法PPO-PGDLC增强了策略鲁棒性

深度强化学习优化投资组合风险与回报

预期强化学习改进轨迹跟踪，但仿真到现实的差距依然存在

物理信息神经网络增强强化学习的安全性

元强化学习增强射频干扰定位

新的基于轨迹的评估方法确保 AI 代理保持行为纪律

基于因果关系的强化学习框架增强自主系统恢复能力

可解释强化学习框架提升交通信号控制的安全性和透明度

深度强化学习优化农场和仓库的电池管理

强化学习优化AI推理路由，提高吞吐量

PPO驱动的自适应滤波框架在信号去噪方面展现出潜力

Amazon SageMaker AI 推出多轮强化学习新服务

ICML 2026 投稿量激增，关注点转向 AI 推理与安全

新研究推动扩散模型在量化、运动生成和RLHF方面的进展

6G OFDM-RIS优化综述：基础模型和深度学习崭露头角

新的PS-PPO方法降低了LLM的RLHF训练成本

新的BV-Blend框架稳定LLM对齐的无批评RL

强化学习优化风电场数据中心能源使用