实体 reinforcement learning

reinforcement learning

PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

143

90 天内 143

发布 · 30天

90 天内 0

论文 · 30天

135

90 天内 135

层级分布 · 90 天

significant 2
research 54
tool 82
commentary 5

关系

instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
used by robotics 90%
used by large-language models 80%
used by Grpo 70%
used by supervised fine-tuning 70%
instance of robotics 70%
used by Group Relative Policy Optimization 70%
instance of Markov decision process 70%
used by vision-language model 70%
used by AlphaZero 70%
used by train of thought 70%
affiliated with model predictive control 70%

时间线

2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源

情绪 · 30 天

20 天有情绪数据

最近 · 第 4/8 页 · 共 143 条

RESEARCH · CL_26359 · May 11 · 10:12

GPT-5 Mini 在 Agentick 基准测试中领先，但没有单一代理范式占主导地位

新的 Agentick 基准测试评估了 37 个任务中的各种 AI 代理，显示 GPT-5 Mini 取得了 0.309 的最高分。然而，没有一种单一的代理范式，包括强化学习、LLM、VLM 或混合方法，表现出主导地位。值得注意的是，在此次评估中，基于 ASCII 的代理的表现优于使用自然语言的代理。
RESEARCH · CL_27508 · May 11 · 08:28

MTA-RL框架通过多模态AI增强城市驾驶

研究人员开发了MTA-RL，一个新颖的框架，它集成了多模态Transformer-based 3D可供性与强化学习，以实现鲁棒的城市自动驾驶。该方法融合了RGB图像和LiDAR数据，以预测明确的、几何感知的可供性，为强化学习策略创建了一个结构化的观测空间。在CARLA模拟器中的评估表明，与现有基线相比，MTA-RL在样本效率、稳定性和零样本泛化方面表现更优。
TOOL · CL_27531 · May 11 · 06:14

新的强化学习算法自适应地分块动作以实现更好的学习

研究人员推出了一种新的强化学习算法——自适应动作分块（ACH），该算法可以动态调整动作序列的长度。与之前使用固定分块长度的方法不同，ACH使用Transformer架构同时估计多个分块长度的值。这使得智能体能够根据当前状态调整其分块策略，从而在各种任务中提高泛化能力和学习效率。
RESEARCH · CL_25979 · May 11 · 04:00

新的 FQE 和 FQI 方法绕过 Bellman 完全性以实现稳定性

研究人员开发了新的拟合 Q 评估 (FQE) 和软拟合 Q 迭代 (soft FQI) 方法，这些方法不需要 Bellman 完全性，而 Bellman 完全性在使用函数逼近时常常无法满足。所提出的技术，即静态加权 FQE 和静态重加权 soft FQI，通过重新加权回归步骤以匹配目标策略的静态分布来解决不稳定性问题。这些方法旨在提高强化学习的离策略评估的稳定性和减少值误差。
TOOL · CL_25358 · May 10 · 19:59

机器人爱好者展示使用强化学习的 AI 平衡机器人

一位机器人爱好者开发了一个由 AI 驱动的平衡机器人，展示了强化学习在控制系统中的潜力。初始迭代需要大量调整，凸显了弥合仿真与现实应用之间差距的挑战。未来的计划包括实施域随机化，以增强机器人的稳定性和鲁棒性。
TOOL · CL_25531 · May 8 · 17:07

Frontier LRMs match human game learning and brain activity

A new research paper explores how frontier Large Reasoning Models (LRMs) compare to human learning in complex game environments. The study used gameplay data and fMRI recordings to evaluate LRMs against various AI agent…
TOOL · CL_25553 · May 8 · 15:04

新的DTSemNet方法无需近似即可训练倾斜决策树

研究人员开发了DTSemNet，一种无需近似即可训练倾斜决策树的新方法。该方法使用语义等价且可逆的神经网络表示，从而实现端到端的基于梯度的训练。DTSemNet解决了分类和回归中的挑战，并引入了一种退火Top-k方法来改善回归任务中的梯度信号。该方法在各种基准测试中表现优于现有的可微分决策树，并显示出在强化学习中用作程序化策略的潜力。
TOOL · CL_25622 · May 8 · 12:05

新的LC-MAPF模型通过本地通信增强多智能体寻路能力

研究人员开发了一种名为LC-MAPF的新机器学习模型，旨在改善大规模多智能体寻路场景中的协调。该模型包含一个可学习的通信模块，允许相邻智能体共享信息并增强其决策能力。实验表明，LC-MAPF的性能优于现有的基于学习的求解器，并能保持可扩展性，而可扩展性是增强通信方法的常见挑战。
TOOL · CL_25661 · May 8 · 06:34

新方法将RL权重同步通信量削减100倍

研究人员开发了SparseRL-Sync，一种用于大规模强化学习系统中策略权重同步的新颖方法。该技术利用训练过程中参数变化的固有稀疏性，仅传输更新元素的索引和值，而非整个权重集。这种方法可将通信量减少约100倍，显著提高带宽受限或异步RL环境的效率和可扩展性。
TOOL · CL_22473 · May 8 · 04:00

New Long-Horizon Q-Learning method improves reinforcement learning accuracy

Researchers have introduced Long-Horizon Q-Learning (LQL), a novel method designed to improve the stability of value-based reinforcement learning. LQL addresses the issue of compounding estimation errors in traditional …
TOOL · CL_22097 · May 8 · 04:00

PlatoLTL使强化学习代理能够泛化到LTL指令中未见的符号

研究人员引入了PlatoLTL，这是一种旨在提高多任务强化学习泛化能力的新方法。该方法使强化学习代理能够执行在训练期间未遇到的任务，特别是通过在有限时间逻辑（LTL）指令中的不同符号或命题之间进行泛化。PlatoLTL将命题建模为参数化原子谓词，使策略能够学习共享结构并在复杂环境中实现零样本泛化。
TOOL · CL_22082 · May 8 · 04:00

新理论解释RLVR优化动力学和步长阈值

研究人员开发了一个用于可验证奖励强化学习（RLVR）的理论框架，这是一种用于通过二元反馈微调大型语言模型的技巧。该研究引入了一个“梯度间隙”指标来分析训练过程，并确定了一个关键的收敛步长阈值。该理论解释了响应长度和成功率等因素如何影响学习稳定性，并预测在固定学习率下可能无法达到100%的成功率。
TOOL · CL_21943 · May 8 · 04:00

新的梯度-动量耦合指标增强了强化学习进展的测量

研究人员引入了梯度-动量耦合（GMC），一种用于测量强化学习中学习进展的新颖方法。GMC通过分析样本梯度与过去梯度动量的相互作用来量化样本梯度对持续学习的效用。与预测误差等传统信号不同，这种方法旨在更好地将有意义的模式与噪声区分开来。实验表明，GMC增强了对噪声的鲁棒性，并且可以通过根据学习速度对任务进行优先级排序来促进新兴课程学习。
TOOL · CL_21940 · May 8 · 04:00

LLMs and behavior trees enhance AI agent task completion with reward shaping

研究人员开发了一种名为掩码奖励行为树（MRBT）的新方法，以提高自主代理在复杂、多步骤任务中的学习效率。MRBT 利用大型语言模型（LLMs）自动生成奖励塑造和动作掩码函数，这对于强化学习至关重要。该方法通过提高对子任务失败的响应能力和针对不同任务对象的模块化能力，解决了现有方法的局限性，从而提高了训练效率和成功率。
TOOL · CL_21938 · May 8 · 04:00

为自适应数据拟合Q迭代开发了测度理论

研究人员为拟合Q迭代（FQI）开发了一个新的理论框架，该框架将测度理论基础与强化学习中的实际误差分析相结合。该框架提供了有限样本性能界限和自适应数据保证，弥补了理论模型与深度强化学习在复杂系统中的应用之间的重大差距。这项工作进一步为在连续空间中提供FQI的第一个累积、路径在线遗憾保证奠定了基础，为分析现代深度强化学习算法奠定了基础。
TOOL · CL_21905 · May 8 · 04:00

新的强化学习范式将结果监督内化用于推理

研究人员引入了一种新颖的面向推理任务的强化学习范式，旨在克服稀疏结果级监督的局限性。他们提出的方法侧重于将结果监督内化为过程监督，使模型能够从失败的推理轨迹中自动生成和改进其自身的学习信号。通过识别、纠正和重用这些失败的路径，该方法能够实现更细粒度的策略优化，为信用分配提供了一条新途径，而无需依赖昂贵且耗时的外部过程监督。
RESEARCH · CL_22004 · May 7 · 16:49

Reinforcement learning optimizes genetic circuit design under uncertainty

研究人员开发了一个新的顺序框架，利用强化学习来优化基因电路的设计，以应对生物系统中固有的不确定性。该方法采用模拟器模型和一个预先训练好的摊销方法，以适应未知的实验室条件和分子噪声，从而避免了在每个实验步骤后进行计算密集型推理的需要。该框架已在基因表达和阻遏子电路模型上得到验证，显示出在处理随机性和跨实验室变异性方面的效率。
RESEARCH · CL_21952 · May 7 · 09:50

New methods enhance on-policy distillation for LLMs

Researchers have developed new methods to improve the efficiency and stability of on-policy distillation (OPD) for large language models. One approach, vOPD, uses a control variate baseline derived from the reverse KL d…
TOOL · CL_20963 · May 7 · 07:24

微调后的语言模型掌握法律合同谈判，知道何时停止

研究人员开发了一个强化学习环境，用于训练语言模型进行法律合同谈判。一个较小的、经过微调的模型成功达成了一份合同，而一个规模大得多的模型未能达成，这凸显了知道何时停止谈判的重要性，而不是仅仅依赖原始能力。这种方法有望在复杂的谈判场景中带来更有效率和更强大的AI代理。
TOOL · CL_20568 · May 7 · 04:00

RouteFormer uses transformers and RL for autonomous vehicle routing

Researchers have developed RouteFormer, a novel framework utilizing Transformer architecture and Reinforcement Learning for optimizing routing in autonomous surveillance missions. This approach addresses complex combina…

GPT-5 Mini 在 Agentick 基准测试中领先，但没有单一代理范式占主导地位

MTA-RL框架通过多模态AI增强城市驾驶

新的强化学习算法自适应地分块动作以实现更好的学习

新的 FQE 和 FQI 方法绕过 Bellman 完全性以实现稳定性

机器人爱好者展示使用强化学习的 AI 平衡机器人

Frontier LRMs match human game learning and brain activity

新的DTSemNet方法无需近似即可训练倾斜决策树

新的LC-MAPF模型通过本地通信增强多智能体寻路能力

新方法将RL权重同步通信量削减100倍

New Long-Horizon Q-Learning method improves reinforcement learning accuracy

PlatoLTL使强化学习代理能够泛化到LTL指令中未见的符号

新理论解释RLVR优化动力学和步长阈值

新的梯度-动量耦合指标增强了强化学习进展的测量

LLMs and behavior trees enhance AI agent task completion with reward shaping

为自适应数据拟合Q迭代开发了测度理论

新的强化学习范式将结果监督内化用于推理

Reinforcement learning optimizes genetic circuit design under uncertainty

New methods enhance on-policy distillation for LLMs

微调后的语言模型掌握法律合同谈判，知道何时停止

RouteFormer uses transformers and RL for autonomous vehicle routing