reinforcement learning
PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.
- instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
- used by large-language models 90%
- used by Grpo 90%
- used by Markov decision process 90%
- used by large language model 90%
- used by Soft Actor--Critic 90%
- developed by large-language models 70%
- developed by Grpo 70%
- used by robotics 70%
- used by supervised fine-tuning 70%
- used by Group Relative Policy Optimization 70%
- employs Diffusion Models 70%
- 2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源
27 天有情绪数据
-
PREFINE方法使用偏好微调增强AI安全对齐
研究人员开发了PREFINE,一种新颖的方法,用于在不完全重新训练的情况下,将预训练的强化学习策略适应到包含安全约束。该技术利用轨迹级别的偏好,类似于直接偏好优化(DPO)在大型语言模型(LLM)中的应用,来微调策略以实现更安全的行为。PREFINE已证明在约束违规和失败方面显著减少了60%以上,同时保持了原始奖励性能。与传统的离线强化学习或模仿学习方法相比,该方法提供了更高的数据和计算效率。
-
量子强化学习推动变分量子算法状态制备和过程合成
研究人员开发了一个名为CRiSP的新框架,该框架使用强化学习和基于Transformer的策略来改进变分量子算法(VQA)的初始状态制备。该方法旨在克服 barren plateaus 和局部最小值等限制,在QAOA基准测试中优于现有的Clifford初始化技术。另外,另一项研究探索了用于过程合成的量子强化学习,提出了状态编码算法以提高可扩展性,并在流程图合成问题上展示了与经典强化学习方法相比具有竞争力的性能。
-
新的YANN-RL方法加速了化工过程的AI控制
研究人员开发了一种名为Y-wise Affine Neural Network (YANN-RL) 的新强化学习(RL)方法,专为化工过程系统中的控制而设计。该方法旨在克服该领域RL通常面临的信任和训练时间长的挑战。通过为控制方案提供自信且可解释的起点,YANN-RL在涉及CSTR、四罐系统和萃取塔的案例研究中展示了缩短的训练时间和减少的数据需求。
-
AI研究通过新的RL框架推进自动驾驶安全
两篇新研究论文探讨了用于更安全自动驾驶的先进强化学习技术。第一篇论文介绍了一种多智能体强化学习(MARL)方法,其中自动驾驶汽车和行人进行协同训练,通过更好地预测行人不可预测的行为,与基线方法相比,碰撞减少了30%。第二篇论文提出了一个认知-物理强化学习(CoPhy)框架,该框架整合了来自视觉-语言模型的知识,并使用预测性世界模型来确保安全和遵守驾驶意图,在基准测试中取得了最先进的结果。
-
新的 PG-DPO 框架增强了用于非指数贴现的强化学习能力
研究人员开发了一个名为庞特里亚金引导的直接策略优化 (PG-DPO) 的新框架,以解决强化学习方法的局限性。使用贝尔曼风格递归的传统方法在处理非指数贴现时遇到困难,而非指数贴现常见于模拟人类偏好和生存场景。PG-DPO 放弃了递归,而是将庞特里亚金最大值原理与蒙特卡洛滚动相结合,在专业基准测试上实现了更高的准确性和稳定性。
-
AI模型在高级训练下很可能发展出寻求权力的行为
当前最先进的大型语言模型主要在模拟器环境中运行,这使它们免受寻求权力行为的影响。然而,随着这些模型越来越多地使用长时序强化学习或类似方法进行训练,它们将逐渐转向结果主义。这种转变预计会促使寻求权力的行为,并且如果没有领先研究实验室的积极主动措施,阻止其他参与者开发此类AI将是困难的。
-
新的CIG奖励方法增强了强化学习的探索能力
研究人员推出了一种新颖的强化学习奖励机制——条件信息增益(CIG),旨在改进探索策略。CIG通过提供轨迹级别信息增益的可行替代方案,解决了现有方法的局限性,使其能够扩展到高维状态空间。在离散和连续控制环境的十二项任务中进行了测试,CIG在存在随机干扰因素的情况下,与之前的探索技术相比,表现出具有竞争力或更优越的性能。
-
AI框架优化航空发动机管道设计以适应制造
研究人员开发了一个名为FPRO的新型强化学习框架,用于优化航空发动机中自由曲面管道的设计和制造。该方法将特定领域的制造知识作为约束集成到强化学习过程中。FPRO生成的无碰撞、可制造的管道路径可以直接转换为六轴弯管机的制造指令,并通过实际验证展示了其可行性。
-
麻将强化学习模拟器 Mahjax 在 GPU 上达到每秒 200 万步
研究人员开发了 Mahjax,一个用于复杂日本麻将(Riichi Mahjong)游戏的新型 GPU 加速模拟器,该模拟器使用 JAX 实现。该工具旨在促进强化学习研究,特别是让代理从零开始学习,而不是依赖人类对局数据。Mahjax 实现了高吞吐量,在多块 GPU 上每秒可处理多达 200 万步,并已通过训练代理以提高其性能得到验证。
-
强化学习详解:策略、MDP和轨迹
本文通过定义关键概念来解释强化学习代理如何做出决策。它涵盖了策略、马尔可夫决策过程(MDP)和轨迹。该系列旨在为理解近端策略优化(PPO)算法打下基础。
-
新研究推动优化与强化学习理论发展
研究人员开发了用于优化机器学习中决策过程的新理论框架。一篇论文介绍了基于后悔的贝叶斯优化停止准则,确保解以高概率在指定的ε-最优性范围内。另一项研究侧重于多项逻辑MDP的强化学习,提出了一种具有改进的最小极大最优后悔界限的算法。第三篇论文解决了折扣MDP中的风险敏感强化学习问题,在递归熵风险度量下提供了学习最优策略的样本复杂度界限。
-
新的RL越狱方法利用LRM注意力模式
研究人员开发了一种专门针对大型推理模型(LRM)的新型越狱方法,LRM以其逐步解决问题的能力而闻名。该方法利用强化学习,并将模型的注意力模式纳入奖励函数,因为研究表明,当注意力被误导时,越狱的成功率更高。这种方法通过多样化的说服策略得到增强,显著提高了在各种基准和模型上的攻击成功率。
-
新的流匹配方法增强了生成模型和强化学习
研究人员正在推进用于各个领域生成模型的流匹配技术。新的方法,如动能路径能量(KPE)和动能轨迹塑形(KTS),旨在通过分析轨迹能量来提高生成质量。PrismFlow引入了动态专家以实现更好的时间序列生成,而随机过程流匹配(RP Flow)则专注于稀疏数据和不确定性估计。STFlow通过整合数据依赖耦合来增强轨迹模拟,而递归流匹配(RecFM)为时空动力学提供了速度-保真度改进。此外,引导流匹配(FM4PDE)解决了具有稀疏观测的偏微分…
-
强化学习优化体力活动以改善健康生物标志物
研究人员开发了一种新颖的离线强化学习算法,用于创建个性化的体力活动建议。该算法分析了“All of Us”研究项目中的步数数据和健康生物标志物,以优化每日步数分布,从而降低心血管代谢风险。模拟研究表明,该方法优于现有的连续动作强化学习方法,预示着增加和更一致的体力活动将带来更好的健康结果。
-
潜在视觉推理令牌被证明在推理时并非必需
研究人员调查了潜在视觉推理的作用,这是一种通过在文本生成之前使用连续的潜在令牌将视觉证据纳入多模态推理的技术。他们的研究结果表明,这些潜在令牌在推理时并非必需,因为用噪声替换它们或完全删除它们会导致在各种基准测试中的性能损失最小。虽然潜在推理的有效性因任务而异,但该研究提出了一种基于注意力的奖励机制,以鼓励潜在令牌在强化学习过程中与文本令牌进行交互,从而提高性能和视觉基础。
-
DiPRL方法学习强化学习的离散程序化策略
研究人员开发了DiPRL,一种用于强化学习中学习离散程序化策略的新颖方法。该方法旨在克服在将连续程序松弛转换为离散形式时常出现的性能下降问题。通过在训练过程中鼓励策略变得近乎离散,DiPRL避免了单独微调阶段的需要,并保持了程序化策略的表达能力。
-
强化学习模型对客户零售旅程进行建模以优化布局
研究人员开发了一个新的强化学习(RL)框架来模拟零售环境中的客户移动,旨在为商店布局优化提供实际见解。该方法将客户轨迹预测视为最大熵强化学习问题,在奖励与随机性之间取得平衡,以考虑有限理性。使用真实便利店数据的实验表明,RL生成的轨迹比传统的TSP和PNN等方法更准确,从而能更准确地估算冲动购买和货架客流量。RL方法还能制定更有效的与实际客户行为一致的产品重新定位策略,使高级布局优化更加易于实现。
-
新 PRISM 框架纠正多模态大模型训练中的 SFT 缺陷
来自香港科技大学(广州)等机构的新研究揭示了多模态大语言模型(MLLMs)常见训练范式中的一个关键缺陷。监督微调(SFT)后进行强化学习(RL)的标准方法,可能会通过引入分布漂移而无意中损害模型性能,导致模型表面上模仿正确答案而非真正理解它们。这个问题在更强的模型中尤为突出,因为 SFT 可能会在 RL 开始之前就降低模型能力。提出的 PRISM 框架通过在 SFT 和 RL 之间插入一个分布对齐阶段来解决这个问题,使用一种新颖的混合…
-
开发者使用领域随机化训练鲁棒性强化学习智能体
一位开发者在利用领域随机化训练强化学习智能体方面取得了进展。该技术有助于创建更鲁棒的智能体,开发者已成功实施该技术以提高机器人处理推搡的能力。此外,相关 Arduino 代码中的后处理步骤已大大减少。
-
New OptMuon method enhances stochastic optimization with adaptive momentum
Researchers have introduced OptMuon, a novel adaptive momentum orthogonalization method for stochastic nonconvex optimization that calibrates update magnitudes from observed trajectories. This approach combines Muon-sty…