reinforcement learning
PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.
- instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
- used by large-language models 90%
- used by Grpo 90%
- used by Markov decision process 90%
- used by large language model 90%
- used by Soft Actor--Critic 90%
- developed by large-language models 70%
- developed by Grpo 70%
- used by robotics 70%
- used by supervised fine-tuning 70%
- used by Group Relative Policy Optimization 70%
- employs Diffusion Models 70%
- 2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源
27 天有情绪数据
-
新的 FQE 和 FQI 方法绕过 Bellman 完全性以实现稳定性
研究人员开发了新的拟合 Q 评估 (FQE) 和软拟合 Q 迭代 (soft FQI) 方法,这些方法不需要 Bellman 完全性,而 Bellman 完全性在使用函数逼近时常常无法满足。所提出的技术,即静态加权 FQE 和静态重加权 soft FQI,通过重新加权回归步骤以匹配目标策略的静态分布来解决不稳定性问题。这些方法旨在提高强化学习的离策略评估的稳定性和减少值误差。
-
机器人爱好者展示使用强化学习的 AI 平衡机器人
一位机器人爱好者开发了一个由 AI 驱动的平衡机器人,展示了强化学习在控制系统中的潜力。初始迭代需要大量调整,凸显了弥合仿真与现实应用之间差距的挑战。未来的计划包括实施域随机化,以增强机器人的稳定性和鲁棒性。
-
前沿大型推理模型在游戏学习和大脑活动方面与人类匹配
一篇新的研究论文探讨了前沿大型推理模型(LRMs)在复杂游戏环境中与人类学习的比较。该研究使用游戏数据和fMRI记录来评估LRMs与各种AI代理和人类玩家的表现。结果表明,LRMs在学习和决策任务中,其行为模式与人类非常相似,并且在预测大脑活动方面显著优于其他AI模型。
-
新的DTSemNet方法无需近似即可训练倾斜决策树
研究人员开发了DTSemNet,一种无需近似即可训练倾斜决策树的新方法。该方法使用语义等价且可逆的神经网络表示,从而实现端到端的基于梯度的训练。DTSemNet解决了分类和回归中的挑战,并引入了一种退火Top-k方法来改善回归任务中的梯度信号。该方法在各种基准测试中表现优于现有的可微分决策树,并显示出在强化学习中用作程序化策略的潜力。
-
新的LC-MAPF模型通过本地通信增强多智能体寻路能力
研究人员开发了一种名为LC-MAPF的新机器学习模型,旨在改善大规模多智能体寻路场景中的协调。该模型包含一个可学习的通信模块,允许相邻智能体共享信息并增强其决策能力。实验表明,LC-MAPF的性能优于现有的基于学习的求解器,并能保持可扩展性,而可扩展性是增强通信方法的常见挑战。
-
新方法将RL权重同步通信量削减100倍
研究人员开发了SparseRL-Sync,一种用于大规模强化学习系统中策略权重同步的新颖方法。该技术利用训练过程中参数变化的固有稀疏性,仅传输更新元素的索引和值,而非整个权重集。这种方法可将通信量减少约100倍,显著提高带宽受限或异步RL环境的效率和可扩展性。
-
新的长时Q学习方法提高了强化学习的准确性
研究人员推出了一种名为长时Q学习(LQL)的新方法,旨在提高基于价值的强化学习的稳定性。LQL通过引入基于不等式的后备机制来解决传统Q学习中估计误差累积的问题。该方法利用现有网络输出来惩罚违反从观察到的动作序列推导出的界限的行为,从而避免了额外的计算开销。实验表明,LQL在各种基准测试中始终优于标准的1步和n步TD学习。
-
PlatoLTL使强化学习代理能够泛化到LTL指令中未见的符号
研究人员引入了PlatoLTL,这是一种旨在提高多任务强化学习泛化能力的新方法。该方法使强化学习代理能够执行在训练期间未遇到的任务,特别是通过在有限时间逻辑(LTL)指令中的不同符号或命题之间进行泛化。PlatoLTL将命题建模为参数化原子谓词,使策略能够学习共享结构并在复杂环境中实现零样本泛化。
-
新理论解释RLVR优化动力学和步长阈值
研究人员开发了一个用于可验证奖励强化学习(RLVR)的理论框架,这是一种用于通过二元反馈微调大型语言模型的技巧。该研究引入了一个“梯度间隙”指标来分析训练过程,并确定了一个关键的收敛步长阈值。该理论解释了响应长度和成功率等因素如何影响学习稳定性,并预测在固定学习率下可能无法达到100%的成功率。
-
新的梯度-动量耦合指标增强了强化学习进展的测量
研究人员引入了梯度-动量耦合(GMC),一种用于测量强化学习中学习进展的新颖方法。GMC通过分析样本梯度与过去梯度动量的相互作用来量化样本梯度对持续学习的效用。与预测误差等传统信号不同,这种方法旨在更好地将有意义的模式与噪声区分开来。实验表明,GMC增强了对噪声的鲁棒性,并且可以通过根据学习速度对任务进行优先级排序来促进新兴课程学习。
-
LLMs and behavior trees enhance AI agent task completion with reward shaping
研究人员开发了一种名为掩码奖励行为树(MRBT)的新方法,以提高自主代理在复杂、多步骤任务中的学习效率。MRBT 利用大型语言模型(LLMs)自动生成奖励塑造和动作掩码函数,这对于强化学习至关重要。该方法通过提高对子任务失败的响应能力和针对不同任务对象的模块化能力,解决了现有方法的局限性,从而提高了训练效率和成功率。
-
为自适应数据拟合Q迭代开发了测度理论
研究人员为拟合Q迭代(FQI)开发了一个新的理论框架,该框架将测度理论基础与强化学习中的实际误差分析相结合。该框架提供了有限样本性能界限和自适应数据保证,弥补了理论模型与深度强化学习在复杂系统中的应用之间的重大差距。这项工作进一步为在连续空间中提供FQI的第一个累积、路径在线遗憾保证奠定了基础,为分析现代深度强化学习算法奠定了基础。
-
新的强化学习范式将结果监督内化用于推理
研究人员引入了一种新颖的面向推理任务的强化学习范式,旨在克服稀疏结果级监督的局限性。他们提出的方法侧重于将结果监督内化为过程监督,使模型能够从失败的推理轨迹中自动生成和改进其自身的学习信号。通过识别、纠正和重用这些失败的路径,该方法能够实现更细粒度的策略优化,为信用分配提供了一条新途径,而无需依赖昂贵且耗时的外部过程监督。
-
Reinforcement learning optimizes genetic circuit design under uncertainty
研究人员开发了一个新的顺序框架,利用强化学习来优化基因电路的设计,以应对生物系统中固有的不确定性。该方法采用模拟器模型和一个预先训练好的摊销方法,以适应未知的实验室条件和分子噪声,从而避免了在每个实验步骤后进行计算密集型推理的需要。该框架已在基因表达和阻遏子电路模型上得到验证,显示出在处理随机性和跨实验室变异性方面的效率。
-
新方法增强LLM的On-Policy蒸馏
研究人员开发了新方法来提高大型语言模型On-Policy蒸馏(OPD)的效率和稳定性。一种方法vOPD使用源自反向KL散度的控制变量基线,在没有显著计算开销的情况下降低梯度方差。另一种方法ROPD仅使用教师生成的响应即可实现基于规则的蒸馏,提供了基于logit的OPD的黑盒兼容替代方案。第三种技术Near-Policy Distillation(NPD)通过异步生成和选择性打包来加速该过程,实现了显著的加速并优于标准微调。
-
微调后的语言模型掌握法律合同谈判,知道何时停止
研究人员开发了一个强化学习环境,用于训练语言模型进行法律合同谈判。一个较小的、经过微调的模型成功达成了一份合同,而一个规模大得多的模型未能达成,这凸显了知道何时停止谈判的重要性,而不是仅仅依赖原始能力。这种方法有望在复杂的谈判场景中带来更有效率和更强大的AI代理。
-
RouteFormer 使用 Transformer 和 RL 进行自动驾驶汽车路由
研究人员开发了 RouteFormer,一个利用 Transformer 架构和强化学习来优化自主监控任务中路由的新型框架。该方法解决了动态物联网环境中复杂的组合优化问题,性能优于传统启发式方法。通过纳入传统求解器常常忽略的任务特定约束,RouteFormer 与 Concorde 相比将距离减少了 10%,与 LKH-3 相比减少了 7%。
-
新研究探索用于高效随机模拟的并行和重启策略
研究人员分析了无模型设置下随机模拟的并行和重启策略的效率,这在强化学习中很常见。他们的概率分析表明,存在一个最优的并行模拟数量,超过该数量后性能会呈指数级下降。研究还表明,通过将资源从停滞的轨迹重新分配到有前途的轨迹,重启策略可以提供指数级的改进。
-
新的Malliavin微积分方法估计自适应IRL的反事实梯度
研究人员开发了一种新颖的被动自适应逆强化学习(IRL)算法,该算法通过观察前向学习者的梯度来重建其损失函数。这种新方法利用Malliavin微积分来有效地估计反事实梯度,这在被动IRL场景中至关重要但难以获得。通过将条件化重塑为涉及Malliavin量的不条件期望之比,该算法实现了标准的估计速率,并为这个复杂的梯度估计问题提供了一种具体的方法。
-
Dream-MPC 使用潜在想象进行基于梯度的模型预测控制
研究人员推出了一种新颖的模型基础强化学习方法 Dream-MPC,该方法利用潜在想象进行基于梯度的优化。该方法生成候选轨迹,并使用学习到的世界模型和不确定性正则化对其进行优化。在 24 个连续控制任务上的实验表明,Dream-MPC 能够提高策略性能,并超越现有的无梯度 MPC 技术。