实体 reinforcement learning

reinforcement learning

PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

220

90 天内 220

发布 · 30天

90 天内 0

论文 · 30天

209

90 天内 209

层级分布 · 90 天

significant 2
research 82
tool 128
commentary 8

主题

论文 209
其他 112
模型发布 46
安全 40
产品 34
基础设施 10
观点 2
融资 2

关系

instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
used by large-language models 90%
used by Grpo 90%
used by Markov decision process 90%
used by large language model 90%
used by Soft Actor--Critic 90%
developed by large-language models 70%
developed by Grpo 70%
used by robotics 70%
used by supervised fine-tuning 70%
used by Group Relative Policy Optimization 70%
employs Diffusion Models 70%

时间线

2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源

情绪 · 30 天

27 天有情绪数据

最近 · 第 10/10 页 · 共 200 条

RESEARCH · CL_11520 · Apr 30 · 16:48

FiLMMeD模型使用特征线性调制进行多仓库车辆路径规划

研究人员推出FiLMMeD，这是一种新颖的神经网络模型，旨在解决各种多仓库车辆路径问题（MDVRP）。该模型通过将特征线性调制（FiLM）集成到Transformer编码器中来增强泛化能力，从而根据活动约束进行动态条件设置。FiLMMeD还证明了偏好优化在多任务学习在该领域中的有效性优于强化学习，并采用课程学习策略来管理复杂的约束交互。实验表明，FiLMMeD在24种MDVRP变体和16种单仓库VRP上的表现优于现有方法。
RESEARCH · CL_11524 · Apr 30 · 15:48

新论文从单一KL恒等式推导出指数族结果

研究人员发现了一个指数族的基本恒等式，指数族是现代机器学习技术（如softmax和高斯分布）的关键分布。该恒等式简化了变分推断和强化学习中几个关键结果的推导，包括勾股定理和吉布斯变分原理。这些研究结果在一个独立的笔记中提出，为理解这些复杂的数学概念提供了一种更简化的方法。
RESEARCH · CL_11403 · Apr 30 · 15:27

新的 Kernelized Advantage Estimation 通过非参数统计方法改进 LLM 推理能力

研究人员引入了 Kernelized Advantage Estimation (KAE) 来通过强化学习增强大型语言模型 (LLM) 的推理能力。KAE 解决了现有方法（如 Proximal Policy Optimization 和 GRPO）的局限性，这些方法要么计算开销高，要么需要过多的采样。通过利用经典的非参数统计方法，特别是核平滑，KAE 旨在以更少的每次提示推理轨迹来实现准确的值和梯度估计。这种方法在资源受限的环境中尤其…
RESEARCH · CL_11380 · Apr 30 · 04:00

调查探讨了机器人从人类视频和世界模型中学习，同时新的网络解决了驾驶员监控问题。

两篇新的调查论文探讨了机器人学习的进展，重点关注不同的数据获取和利用策略。一篇论文全面回顾了世界模型，这些模型是机器人策略学习、规划和模拟的关键预测表示，并强调了它们随着基础模型和视频生成而演变。第二篇调查侧重于从人类视频中学习机器人操作技能，通过利用丰富的人类活动录像和计算机视觉技术来解决机器人数据扩展的挑战。
RESEARCH · CL_10233 · Apr 30 · 04:00

DORA系统通过新颖的异步部署将LLM强化学习加速2-4倍

研究人员开发了DORA，一种新颖的异步强化学习系统，旨在加速语言模型训练。DORA通过采用多版本流式部署，允许并发策略版本，解决了部署阶段长尾轨迹造成的瓶颈。该系统在基准测试上的吞吐量比现有方法高出2-3倍，在大型工业环境中的训练速度快2-4倍。由此产生的开源模型LongCat-Flash-Thinking在复杂推理任务上表现出竞争力。
RESEARCH · CL_09868 · Apr 29 · 16:01

新的UPSi滤波器通过不确定性量化增强了强化学习的安全性

研究人员开发了面向不确定性的预测安全滤波器（UPSi），这是一种增强强化学习探索过程中安全性的新方法。UPSi将概率集成神经网络与预测安全滤波器相结合，解决了先前方法在可扩展性和不确定性量化方面的局限性。该系统将未来结果表述为可达集合，并包含明确的确定性约束以防止模型被利用，在探索安全性方面显示出显著的改进。
RESEARCH · CL_09845 · Apr 29 · 16:01

研究人员为搜索救援任务中的强化学习无人机开发基于规则的指导

研究人员为用于搜索救援任务的无人机（UAV）开发了一种新的分层决策框架。该系统集成了基于规则的顾问和强化学习控制器，即使在有限的先验模拟训练下也能有效运行。该框架通过减少碰撞和适应动态环境来提高早期安全性和样本效率。
RESEARCH · CL_09879 · Apr 29 · 11:52

AI框架优化电动卡车在充电不确定性下的路线规划

开发了一个新的基于学习的框架来解决电动卡车路线规划的复杂问题，该问题涉及在物流、能源限制和操作不确定性之间进行平衡。该框架利用强化学习，将其表述为半马尔可夫决策过程，以处理有限的电池续航里程、充电时间和共享充电基础设施等因素。该方法采用基于图的状态表示和动作掩码来提高训练效率，计算实验表明其性能优于现有方法。
RESEARCH · CL_09858 · Apr 29 · 07:14

新的强化学习框架通过建模不确定性来解决奖励破解问题

研究人员开发了一个新颖的强化学习（RL）框架，通过考虑价值估计和人类偏好中的不确定性来解决奖励破解问题。这种双源不确定性模型利用集成差异和标注变异来调整动作选择，促进探索与谨慎之间的平衡。实验表明，奖励破解行为显著减少，陷阱访问频率降低了 93.7%，展示了一种更原则性的方法来创建可靠且对齐的 RL 系统。
RESEARCH · CL_08690 · Apr 29 · 04:00

新的GFT框架统一了SFT和RL，以实现更稳定的LLM训练

研究人员推出了一种名为Group Fine-Tuning (GFT) 的新颖框架，旨在统一大型语言模型（LLM）的监督微调（SFT）和强化学习（RL）。GFT通过采用群体优势学习（Group Advantage Learning）和动态系数校正（Dynamic Coefficient Rectification）来解决传统SFT的局限性，如单路径依赖和不稳定的权重。实验表明，GFT的性能优于标准的SFT方法，并有助于与后续的RL训练更顺畅地集成。
RESEARCH · CL_08684 · Apr 29 · 04:00

研究人员比较用于自动驾驶汽车需求测试的强化学习方法

一项新研究对用于测试自动驾驶汽车的强化学习技术进行了实证评估，特别比较了单目标强化学习（SORL）和多目标强化学习（MORL）在生成关键场景方面的表现。研究表明，虽然两种方法都能发现需求违反，但MORL倾向于产生更多样化的场景，而SORL可能暴露更严重的问题。MORL和SORL之间的选择取决于优先考虑场景多样性还是违规的严重性，MORL更适合广泛的覆盖范围。
RESEARCH · CL_08608 · Apr 29 · 04:00

新的 VLA 模型 LaST-R1 和 DIAL 通过高级推理增强机器人操作

两篇新的研究论文介绍了用于机器人操作的先进视觉-语言-动作 (VLA) 模型。LaST-R1 将潜在的思维链推理与强化学习相结合，以提高适应性和泛化能力，在 LIBERO 基准测试中取得了 99.8% 的成功率。DIAL 通过潜在世界模型将高级意图与低级动作执行解耦，使其能够以少 10 倍的演示进行学习，并泛化到现实世界任务。
RESEARCH · CL_08262 · Apr 28 · 14:29

新的DPO方法通过基于偏好的后训练提升NMT模型性能

研究人员开发了一种新的神经机器翻译（NMT）系统的后训练方法，该方法利用了强化学习和直接偏好优化（DPO）。该框架仅需要一个通用的文本语料库和来自专家翻译者（可以是人类或AI）的反馈。在英译德翻译上的实验表明，将这种由DPO驱动的方法应用于gemma3-1b模型显著提高了其翻译质量，COMET分数从0.703提升至0.747。
RESEARCH · CL_08314 · Apr 28 · 10:56

研究人员通过行为任务采样改进零样本离线强化学习

研究人员开发了一种新方法，通过直接从离线数据集中提取任务向量来改进零样本强化学习（RL）。这种方法与传统随机采样任务向量的方法不同，后者可能导致泛化能力不佳。通过使用源自现有数据的任务向量，新技术旨在更好地捕捉任务空间的结构。在各种基准环境中的实验表明，零样本泛化能力平均提高了 20%。
RESEARCH · CL_18799 · Apr 28 · 04:00

新研究探讨AI贡献度衡量、强化学习优化及OOD检测

研究人员开发了CoTrace框架，用于衡量和揭示人机协作中的目标级贡献，发现虽然AI在整体目标塑造中所占比例较小，但它对具体需求和间接影响有显著贡献。此外，一种名为DGPO的新方法旨在通过解决复杂推理任务中的粗粒度信用分配问题来改进LLM的强化学习。同时，一项关于乌克兰语熵的研究提供了上限并将其与LLM性能进行比较，另一篇论文则探讨了使用稀疏自动编码器进行视觉Transformer的分布外（OOD）检测。
RESEARCH · CL_07006 · Apr 28 · 04:00

AI学习肌肉驱动控制，实现逼真钢琴演奏

研究人员开发了一种新颖的数据驱动方法，用于控制基于物理的、肌肉驱动的手来演奏钢琴，具有卓越的灵活性。他们的方法结合了高频肌肉控制和低频潜在空间协调，使手能够演奏新的乐曲。该系统利用强化学习进行肌肉激活跟踪，并使用变分自编码器来抽象肌肉动力学，从而实现特定乐曲的协调策略。该方法在基于物理的灵巧钢琴演奏控制方面取得了最先进的性能，并生成了生理上合理的肌肉激活模式。
RESEARCH · CL_06625 · Apr 28 · 04:00

新的LLM RL技术应对性能饱和和对话挑战

研究人员开发了新的方法来提高使用强化学习（RL）训练的大型语言模型（LLM）的性能和稳定性。一种方法Entrocraft使用拒绝采样技术精确控制训练过程中的熵曲线，防止性能饱和并增强泛化能力。另一种方法自适应层扰动（ALP）向模型层注入小的扰动，以缓解训练策略与推理策略之间差距引起的问题。第三个框架，经过验证的LLM知识赋能RL（VLK-RL），通过在指导策略优化之前验证LLM派生的约束，将LLM与RL相结合来处理复杂、长期的对话任务。
RESEARCH · CL_06623 · Apr 28 · 04:00

新方法利用隐藏状态改进 AI 推理信用分配

研究人员开发了一种名为 SHEAR（Span-level Hidden state Enabled Advantage Reweighting）的新方法，用于改进语言模型强化学习中的信用分配。SHEAR 利用正确和错误推理路径的隐藏状态分布之间的 Wasserstein 距离，来识别和放大关键 token 区域的学习信号。该方法无需额外的标注或奖励模型训练，在数学推理和代码生成任务上展现出比现有方法更好的性能。
RESEARCH · CL_06604 · Apr 28 · 04:00

研究人员为文本到图像模型设计实例级采样计划

研究人员开发了一种新方法，通过为冻结的扩散模型学习实例级采样计划来改进文本到图像生成。该方法在最近的 arXiv 论文中有所详述，它使用带有新颖 James-Stein 估计器的 REINFORCE 算法来获得奖励基线，以提高梯度准确性。该技术在文本到图像对齐方面取得了改进，包括在各种 Stable Diffusion 和 Flux 模型系列中更好地进行文本渲染和组合控制。
RESEARCH · CL_06601 · Apr 28 · 04:00

研究人员使用 SHAP 和 RL 改进机器人泛化性和依从性推理

研究人员开发了一个使用 SHapley Additive exPlanations (SHAP) 来分析和改进机器人强化学习 (RL) 算法泛化性的框架。该方法量化了不同算法和超参数配置对泛化差距的影响，为选择最优设置提供了理论基础和实践指导。另外，一个名为 Affordance-R1 的新模型将强化学习与思维链推理相结合，以增强多模态大语言模型中的依从性基础，展示了强大的零样本泛化能力和涌现式推理能力。

FiLMMeD模型使用特征线性调制进行多仓库车辆路径规划

新论文从单一KL恒等式推导出指数族结果

新的 Kernelized Advantage Estimation 通过非参数统计方法改进 LLM 推理能力

调查探讨了机器人从人类视频和世界模型中学习，同时新的网络解决了驾驶员监控问题。

DORA系统通过新颖的异步部署将LLM强化学习加速2-4倍

新的UPSi滤波器通过不确定性量化增强了强化学习的安全性

研究人员为搜索救援任务中的强化学习无人机开发基于规则的指导

AI框架优化电动卡车在充电不确定性下的路线规划

新的强化学习框架通过建模不确定性来解决奖励破解问题

新的GFT框架统一了SFT和RL，以实现更稳定的LLM训练

研究人员比较用于自动驾驶汽车需求测试的强化学习方法

新的 VLA 模型 LaST-R1 和 DIAL 通过高级推理增强机器人操作

新的DPO方法通过基于偏好的后训练提升NMT模型性能

研究人员通过行为任务采样改进零样本离线强化学习

新研究探讨AI贡献度衡量、强化学习优化及OOD检测

AI学习肌肉驱动控制，实现逼真钢琴演奏

新的LLM RL技术应对性能饱和和对话挑战

新方法利用隐藏状态改进 AI 推理信用分配

研究人员为文本到图像模型设计实例级采样计划

研究人员使用 SHAP 和 RL 改进机器人泛化性和依从性推理