Proximal Policy Optimization
PulseAugur coverage of Proximal Policy Optimization — every cluster mentioning Proximal Policy Optimization across labs, papers, and developer communities, ranked by signal.
- instance of deep reinforcement learning 90%
- instance of reinforcement learning 90%
- instance of Pfadfinder und Pfadfinderinnen Österreichs 70%
- used by Pfadfinder und Pfadfinderinnen Österreichs 70%
- used by deep reinforcement learning 70%
- instance of Grand Portage National Monument 60%
- competes with Grpo 50%
- 2026-05-26 research_milestone A new method is proposed to stabilize reinforcement learning training by strategically dropping transitions. 来源
6 天有情绪数据
-
PPO training stabilized by dropping redundant state transitions
Researchers have developed a method to improve the stability of reinforcement learning training by randomly dropping a fraction of transitions from on-policy rollouts. This technique, applied to Proximal Policy Optimiza…
-
Modified Soft Actor-Critic algorithm matches PPO performance for robot locomotion
Researchers have developed a modified version of the Soft Actor-Critic (SAC) algorithm that matches the performance of Proximal Policy Optimization (PPO) in training legged robots. This new approach addresses SAC's samp…
-
强化学习代理在复杂奖励下挣扎,简化后取得成功
一名高中生在训练用于无人机导航的强化学习代理时遇到了问题。该代理旨在到达目标并避开障碍物,但由于奖励函数过于复杂,变得过于谨慎和犹豫不决。通过将奖励简化为仅关注到达目标、朝着目标前进以及碰撞惩罚,代理的性能得到了显著改善。
-
Anyscale 推出技能以自动化 LLM 后续训练运行
Anyscale 推出了新的 Anyscale Agent Skill,旨在简化和自动化 LLM 后续训练运行的生成过程。该技能可根据用户模型、数据集和目标,帮助用户选择最合适的后续训练方法,例如 SFT、CPT、DPO 或 RLVR。然后,它会为 LLaMA-Factory 和 Ray Train 等流行框架生成配置文件,并准备好在 Anyscale Jobs 上进行部署。
-
新架构改进多时间尺度强化学习
研究人员开发了一种名为Target Decoupling的新架构,以解决多时间尺度强化学习中的问题。该方法分离短期和长期信号以改进策略更新,防止了代理目标攻击和策略崩溃等常见问题。在LunarLander-v2环境上的实验表明,与现有方法相比,性能显著提高,方差减小。
-
Deep Reinforcement Learning Solves Flexible Job Shop Scheduling
Researchers have developed a new approach using Deep Reinforcement Learning (DRL) to tackle the complex Flexible Job Shop Scheduling Problem (FJSP), particularly when faced with random job arrivals. Their method, employ…
-
集成强化学习模型增强金融交易策略
研究人员开发了一种用于金融交易的集成强化学习(RL)方法,将A2C、PPO和SAC等RL算法与SVM、决策树和逻辑回归等传统分类器相结合。这种混合方法旨在改善风险-回报权衡并减少与独立RL模型相比的跌幅。研究发现,集成策略的性能始终优于单个模型,尽管性能对方差阈值参数\(\tau\)敏感,这表明需要动态调整。
-
新的YANN-RL方法加速了化工过程的AI控制
研究人员开发了一种名为Y-wise Affine Neural Network (YANN-RL) 的新强化学习(RL)方法,专为化工过程系统中的控制而设计。该方法旨在克服该领域RL通常面临的信任和训练时间长的挑战。通过为控制方案提供自信且可解释的起点,YANN-RL在涉及CSTR、四罐系统和萃取塔的案例研究中展示了缩短的训练时间和减少的数据需求。
-
New RL methods tackle LLM training issues
Two new research papers introduce methods to improve the training of large language models using reinforcement learning. One paper addresses the issue of "advantage collapse" in Group Relative Policy Optimization (GRPO)…
-
AI框架优化航空发动机管道设计以适应制造
研究人员开发了一个名为FPRO的新型强化学习框架,用于优化航空发动机中自由曲面管道的设计和制造。该方法将特定领域的制造知识作为约束集成到强化学习过程中。FPRO生成的无碰撞、可制造的管道路径可以直接转换为六轴弯管机的制造指令,并通过实际验证展示了其可行性。
-
强化学习详解:策略、MDP和轨迹
本文通过定义关键概念来解释强化学习代理如何做出决策。它涵盖了策略、马尔可夫决策过程(MDP)和轨迹。该系列旨在为理解近端策略优化(PPO)算法打下基础。
-
新的AI评估方法确保智能体遵守规则,而不仅仅是达成目标
研究人员推出了一种名为“纪律稳定性”的新型AI智能体评估方法,特别适用于隐藏竞争者状态的场景。这种基于轨迹的方法旨在确保智能体不仅能达成预期结果,还能遵守特定的行为规则,防止它们在满足业务KPI的同时违反操作纪律。在酒店定价和竞价任务上的实验表明,传统的仅基于奖励的强化学习方法可能会在此纪律测试中失败,而融入隐藏状态信息和轨迹诊断则能提高对齐度并保持预期行为。
-
LLM alignment: PPO, DPO, or verifier-based RL for 2026?
This article provides a technical guide for selecting the appropriate reinforcement learning technique for aligning large language models in 2026. It contrasts Proximal Policy Optimization (PPO) for Reinforcement Learni…
-
新的联邦Actor-Critic框架增强了个性化策略训练
研究人员开发了一种新的联邦Actor-Critic框架,用于在不同条件的环境中进行协作策略训练。该方法允许多个智能体共享通用表示,同时保留个性化策略组件。该框架已证明了有限时间收敛性,显示出相对于智能体数量的线性加速,并在实验中优于现有方法。
-
AI模型优化海上网络中HAPS基站的定位
研究人员开发了一个新的框架,使用深度强化学习来动态定位海事网络中的高空平台站(HAPS)。该方法专门解决了平流层风和船舶移动带来的挑战,这些因素会干扰稳定的无线覆盖。该系统采用近端策略优化(PPO)算法来学习定位策略,以提高系统吞吐量并为海上用户保持可靠的连接。
-
HELM system optimizes GPU HBM for generative recommender latency
Researchers have developed HELM, a system designed to optimize the performance of generative recommender models by dynamically managing High Bandwidth Memory (HBM) allocation between embedding (EMB) and KV caches. Exist…
-
Counter-Dyna 将暖通空调控制训练时间缩短至 5 周
研究人员开发了 Counter-Dyna,一种用于暖通空调控制系统数据高效强化学习的新方法。该方法利用利用状态空间不变性的反事实代理模型,与以前的方法相比,显著减少了所需的训练数据。新技术仅需五周的交互数据,比通常所需数月有了显著改进,并在模拟中展示了 5.3% 至 17.0% 的潜在成本节约。
-
vLLM V1引擎重写在后端修复后实现与V0的对等
Hugging Face的vLLM团队详细介绍了如何将他们新的V1引擎与V0参考模型对齐的过程,重点在于确保后端对等,然后再处理强化学习(RL)目标的变化。他们识别并修复了四个关键问题:处理已处理的logprobs的方式、V1特有的运行时默认值、inflight权重更新路径以及使用fp32作为最终投影层。这些修正对于恢复后端行为以匹配V0参考模型至关重要,从而能够准确评估RL目标调整。
-
新的OGPO算法提高了机器人领域生成式控制策略的样本效率
研究人员推出了一种名为“离策略生成策略优化”(OGPO)的新型算法,该算法专为机器人领域生成式控制策略的样本高效微调而设计。OGPO利用离策略评论家网络来最大化数据重用,并通过整个生成过程传播策略梯度。该方法在各种操作任务上实现了最先进的性能,并展示了在没有专家数据的情况下微调初始化不良策略的能力。
-
PERSA管道使用RLHF使大型语言模型反馈与教师风格保持一致
研究人员开发了PERSA,这是一种使用人类反馈强化学习(RLHF)来调整大型语言模型以生成个性化教育反馈的新方法。该方法专门针对将大型语言模型的反馈风格与特定教师的风格保持一致,同时不损害诊断准确性。通过仅更新顶部的Transformer块及其投影,PERSA增强了风格可控性,同时保持内容正确性,在代码反馈基准测试中取得了高分。